개요
Rapid-MLX 는 Apple Silicon 전용 로컬 AI 추론 엔진. MLX + 네이티브 Metal 컴퓨트 커널. Ollama 대비 최대 4.2× 빠름 (Phi-4 Mini 14B: 180 vs 56 tok/s). TTFT 0.08~0.3초. OpenAI API 드롭인 대체 . Apache 2.0.
Ollama 대비 성능
모델 Rapid-MLX Ollama 배속 Phi-4 Mini 14B 180 tok/s 56 3.2× Qwen3.5-9B 108 tok/s 41 2.6× 최대 - - 4.2×
TTFT (Time To First Token):
캐시 상태: 0.08초 (Kimi-Linear-48B)
대부분 모델: 0.1~0.3초
RAM별 최적 모델 매핑
Mac RAM 추천 모델 크기 속도 16GB (Air/Pro)Qwen3.5-4B 4bit 2.4GB 160 tok/s 24GB ProQwen3.5-9B 4bit 5.1GB 108 tok/s 32GB Mini/StudioNemotron-Nano 30B 4bit 18GB 141 tok/s (100% 도구 호출)32GB Qwen3.6-35B-A3B 4bit 20GB 95 tok/s (256K 컨텍스트) 48~64GB Qwen3.5-35B-A3B 8bit ⭐ 37GB 83 tok/s 96GB+ Qwen3.5-122B mxfp4 65GB 57 tok/s 128GB+ DeepSeek V4 Flash 158B 2-bit 91GB 56 tok/s 192~256GB DeepSeek V4 Flash 8-bit 136GB 31 tok/s (1M 컨텍스트 )
양자화
4bit → 메모리 절약 (대부분 권장)
8bit → 고품질 추론
mxfp4 → 고품질 4bit 포맷
핵심 기능
17개 도구 호출 파서
4bit 양자화 모델이 깨진 도구 호출을 텍스트로 출력해도
→ 자동으로 구조화된 형식 복구
→ 모델명 기반 자동 감지
추론(Thinking) 분리
chain-of-thought 모델:
reasoning_content 필드로 분리 출력
지원: Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
멀티턴 캐시
표준 트랜스포머: KV 캐시 트리밍
Qwen3.5 하이브리드: DeltaNet 상태 스냅샷 (~0.1ms 복원)
→ 멀티턴 TTFT 2~5× 개선
→ 별도 플래그 없이 항상 활성화
스마트 클라우드 라우팅
로컬 프리필 느린 대규모 컨텍스트
→ GPT-5, Claude 등 클라우드로 자동 전환
OpenAI 호환
# localhost:8000/v1 = 드롭인 대체
지원 앱:
✓ Cursor
✓ Claude Code
✓ Aider
✓ LangChain
✓ PydanticAI
✓ smolagents
✓ Hermes Agent
✓ Open WebUI
멀티모달 + 옵션
✓ Vision: Gemma 4, Qwen-VL
✓ Audio: TTS / STT
✓ Embeddings
✓ Gradio Chat UI
✓ 스키마 제약 JSON 생성
메모리 최적화
✓ TurboQuant V-cache (86% 메모리 절감)
✓ KV 캐시 양자화
✓ 프리필 청킹
✓ tool logits bias
MHI (Model-Harness Index)
모델 + 에이전트 하네스 호환성 측정 지표
1위: Qwopus 27B → MHI 92
로드맵 가속 기법
기법 예상 가속 Speculative Decode 1.5~2.3× EAGLE-3 3~6.5× ReDrafter 1.4~1.5×
vs Ollama MLX / Ollama 일반
항목 Rapid-MLX Ollama MLX (Apple Silicon 가속) Ollama (일반) MLX 기반 ✅ ✅ ❌ 속도 최고 (4.2× Ollama)2~3× Ollama 기준 OpenAI 호환 ✅ ✅ ✅ 도구 호출 파서 17개 내장 기본 기본 MHI 지표 ✅ ❌ ❌ 클라우드 라우팅 ✅ ❌ ❌ TTFT 0.08초 빠름 보통
→ 관련: Claude Code 로컬 모델 (Ollama) , Claude Code 토큰 절약 도구 종합
의의
1. Apple Silicon 잠재력 최대화
- Metal 컴퓨트 커널 네이티브
- MLX 기반 최적화
2. "OpenAI API 드롭인" = 즉시 대체
- 코드 변경 ❌
- localhost:8000/v1만 가리키면 됨
3. 도구 호출 자동 복구
- 소형 양자화 모델의 약점 보완
- 8B 모델도 도구 사용 가능
4. RAM별 정밀 가이드
- "내 맥엔 뭐가 맞나" 즉답
관련 항목