Rapid-MLX (Apple Silicon 추론 엔진)

개요

Rapid-MLX는 Apple Silicon 전용 로컬 AI 추론 엔진. MLX + 네이티브 Metal 컴퓨트 커널. Ollama 대비 최대 4.2× 빠름 (Phi-4 Mini 14B: 180 vs 56 tok/s). TTFT 0.08~0.3초. OpenAI API 드롭인 대체. Apache 2.0.

GitHub: https://github.com/raullenchai
기반: Apple MLX + Metal
API: OpenAI 호환 (localhost:8000/v1)

Ollama 대비 성능

모델	Rapid-MLX	Ollama	배속
Phi-4 Mini 14B	180 tok/s	56	3.2×
Qwen3.5-9B	108 tok/s	41	2.6×
최대	-	-	4.2×

TTFT (Time To First Token):

캐시 상태: 0.08초 (Kimi-Linear-48B)
대부분 모델: 0.1~0.3초

RAM별 최적 모델 매핑

Mac RAM	추천 모델	크기	속도
16GB (Air/Pro)	Qwen3.5-4B 4bit	2.4GB	160 tok/s
24GB Pro	Qwen3.5-9B 4bit	5.1GB	108 tok/s
32GB Mini/Studio	Nemotron-Nano 30B 4bit	18GB	141 tok/s (100% 도구 호출)
32GB	Qwen3.6-35B-A3B 4bit	20GB	95 tok/s (256K 컨텍스트)
48~64GB	Qwen3.5-35B-A3B 8bit ⭐	37GB	83 tok/s
96GB+	Qwen3.5-122B mxfp4	65GB	57 tok/s
128GB+	DeepSeek V4 Flash 158B 2-bit	91GB	56 tok/s
192~256GB	DeepSeek V4 Flash 8-bit	136GB	31 tok/s (1M 컨텍스트)

양자화

4bit  → 메모리 절약 (대부분 권장)
8bit  → 고품질 추론
mxfp4 → 고품질 4bit 포맷

핵심 기능

17개 도구 호출 파서

4bit 양자화 모델이 깨진 도구 호출을 텍스트로 출력해도
→ 자동으로 구조화된 형식 복구
→ 모델명 기반 자동 감지

추론(Thinking) 분리

chain-of-thought 모델:
  reasoning_content 필드로 분리 출력
  지원: Qwen3, DeepSeek-R1, MiniMax, GPT-OSS

멀티턴 캐시

표준 트랜스포머: KV 캐시 트리밍
Qwen3.5 하이브리드: DeltaNet 상태 스냅샷 (~0.1ms 복원)
→ 멀티턴 TTFT 2~5× 개선
→ 별도 플래그 없이 항상 활성화

스마트 클라우드 라우팅

로컬 프리필 느린 대규모 컨텍스트
  → GPT-5, Claude 등 클라우드로 자동 전환

OpenAI 호환

# localhost:8000/v1 = 드롭인 대체
 
지원 앱:
  ✓ Cursor
  ✓ Claude Code
  ✓ Aider
  ✓ LangChain
  ✓ PydanticAI
  ✓ smolagents
  ✓ Hermes Agent
  ✓ Open WebUI

멀티모달 + 옵션

✓ Vision: Gemma 4, Qwen-VL
✓ Audio: TTS / STT
✓ Embeddings
✓ Gradio Chat UI
✓ 스키마 제약 JSON 생성

메모리 최적화

✓ TurboQuant V-cache (86% 메모리 절감)
✓ KV 캐시 양자화
✓ 프리필 청킹
✓ tool logits bias

MHI (Model-Harness Index)

모델 + 에이전트 하네스 호환성 측정 지표
1위: Qwopus 27B → MHI 92

로드맵 가속 기법

기법	예상 가속
Speculative Decode	1.5~2.3×
EAGLE-3	3~6.5×
ReDrafter	1.4~1.5×

vs Ollama MLX / Ollama 일반

항목	Rapid-MLX	Ollama MLX (Apple Silicon 가속)	Ollama (일반)
MLX 기반	✅	✅	❌
속도	최고 (4.2× Ollama)	2~3× Ollama	기준
OpenAI 호환	✅	✅	✅
도구 호출 파서	17개 내장	기본	기본
MHI 지표	✅	❌	❌
클라우드 라우팅	✅	❌	❌
TTFT	0.08초	빠름	보통

의의

1. Apple Silicon 잠재력 최대화
   - Metal 컴퓨트 커널 네이티브
   - MLX 기반 최적화

2. "OpenAI API 드롭인" = 즉시 대체
   - 코드 변경 ❌
   - localhost:8000/v1만 가리키면 됨

3. 도구 호출 자동 복구
   - 소형 양자화 모델의 약점 보완
   - 8B 모델도 도구 사용 가능

4. RAM별 정밀 가이드
   - "내 맥엔 뭐가 맞나" 즉답

Bigstones

Explorer