개요

Rapid-MLX는 Apple Silicon 전용 로컬 AI 추론 엔진. MLX + 네이티브 Metal 컴퓨트 커널. Ollama 대비 최대 4.2× 빠름 (Phi-4 Mini 14B: 180 vs 56 tok/s). TTFT 0.08~0.3초. OpenAI API 드롭인 대체. Apache 2.0.


Ollama 대비 성능

모델Rapid-MLXOllama배속
Phi-4 Mini 14B180 tok/s563.2×
Qwen3.5-9B108 tok/s412.6×
최대--4.2×

TTFT (Time To First Token):

  • 캐시 상태: 0.08초 (Kimi-Linear-48B)
  • 대부분 모델: 0.1~0.3초

RAM별 최적 모델 매핑

Mac RAM추천 모델크기속도
16GB (Air/Pro)Qwen3.5-4B 4bit2.4GB160 tok/s
24GB ProQwen3.5-9B 4bit5.1GB108 tok/s
32GB Mini/StudioNemotron-Nano 30B 4bit18GB141 tok/s (100% 도구 호출)
32GBQwen3.6-35B-A3B 4bit20GB95 tok/s (256K 컨텍스트)
48~64GBQwen3.5-35B-A3B 8bit ⭐37GB83 tok/s
96GB+Qwen3.5-122B mxfp465GB57 tok/s
128GB+DeepSeek V4 Flash 158B 2-bit91GB56 tok/s
192~256GBDeepSeek V4 Flash 8-bit136GB31 tok/s (1M 컨텍스트)

양자화

4bit  → 메모리 절약 (대부분 권장)
8bit  → 고품질 추론
mxfp4 → 고품질 4bit 포맷

핵심 기능

17개 도구 호출 파서

4bit 양자화 모델이 깨진 도구 호출을 텍스트로 출력해도
→ 자동으로 구조화된 형식 복구
→ 모델명 기반 자동 감지

추론(Thinking) 분리

chain-of-thought 모델:
  reasoning_content 필드로 분리 출력
  지원: Qwen3, DeepSeek-R1, MiniMax, GPT-OSS

멀티턴 캐시

표준 트랜스포머: KV 캐시 트리밍
Qwen3.5 하이브리드: DeltaNet 상태 스냅샷 (~0.1ms 복원)
→ 멀티턴 TTFT 2~5× 개선
→ 별도 플래그 없이 항상 활성화

스마트 클라우드 라우팅

로컬 프리필 느린 대규모 컨텍스트
  → GPT-5, Claude 등 클라우드로 자동 전환

OpenAI 호환

# localhost:8000/v1 = 드롭인 대체
 
지원 앱:
 Cursor
 Claude Code
 Aider
 LangChain
 PydanticAI
 smolagents
 Hermes Agent
 Open WebUI

멀티모달 + 옵션

✓ Vision: Gemma 4, Qwen-VL
✓ Audio: TTS / STT
✓ Embeddings
✓ Gradio Chat UI
✓ 스키마 제약 JSON 생성

메모리 최적화

✓ TurboQuant V-cache (86% 메모리 절감)
✓ KV 캐시 양자화
✓ 프리필 청킹
✓ tool logits bias

MHI (Model-Harness Index)

모델 + 에이전트 하네스 호환성 측정 지표
1위: Qwopus 27B → MHI 92

로드맵 가속 기법

기법예상 가속
Speculative Decode1.5~2.3×
EAGLE-33~6.5×
ReDrafter1.4~1.5×

vs Ollama MLX / Ollama 일반

항목Rapid-MLXOllama MLX (Apple Silicon 가속)Ollama (일반)
MLX 기반
속도최고 (4.2× Ollama)2~3× Ollama기준
OpenAI 호환
도구 호출 파서17개 내장기본기본
MHI 지표
클라우드 라우팅
TTFT0.08초빠름보통

→ 관련: Claude Code 로컬 모델 (Ollama), Claude Code 토큰 절약 도구 종합


의의

1. Apple Silicon 잠재력 최대화
   - Metal 컴퓨트 커널 네이티브
   - MLX 기반 최적화

2. "OpenAI API 드롭인" = 즉시 대체
   - 코드 변경 ❌
   - localhost:8000/v1만 가리키면 됨

3. 도구 호출 자동 복구
   - 소형 양자화 모델의 약점 보완
   - 8B 모델도 도구 사용 가능

4. RAM별 정밀 가이드
   - "내 맥엔 뭐가 맞나" 즉답

관련 항목