개요
Ollama 0.19부터 Apple의 MLX 프레임워크 기반으로 구동되는 프리뷰 공개. Apple Silicon의 통합 메모리 아키텍처 + GPU Neural Accelerator를 활용해 대폭 성능 향상. M5 칩 기준 Qwen3.5-35B-A3B (NVFP4)에서 프리필 1,851 tok/s, 디코드 134 tok/s 달성. NVFP4 양자화 형식 지원 + 캐시 시스템 개선.
- 출처: ollama.com (2026-03-29)
- 버전: Ollama 0.19 프리뷰
- 요구사항: 32GB+ 통합 메모리 Mac (Apple Silicon)
핵심 변화
이전 Ollama (macOS):
- llama.cpp 기반
- Metal API 직접 사용
- 범용 최적화
Ollama 0.19+ (MLX 프리뷰):
- Apple MLX 프레임워크 기반 ⭐
- GPU Neural Accelerator 활용 (M5 시리즈)
- Apple Silicon 통합 메모리 최적화
- NVFP4 형식 지원
성능 벤치마크 (M5 기준)
Qwen3.5-35B-A3B 테스트
| 항목 | Ollama 기존 (Q4_K_M) | Ollama 0.19 (NVFP4) |
|---|---|---|
| 프리필 (TTFT) | 느림 | 1,851 tok/s ⭐ |
| 디코드 (생성) | 느림 | 134 tok/s |
| 양자화 | Q4_K_M (4bit) | NVFP4 |
→ 관련: Claude Code 로컬 모델 (Ollama) (Ollama 활용법)
NVFP4 양자화
NVIDIA NVFP4 형식:
✓ 모델 정확도 유지
✓ 메모리 대역폭 감소
✓ 저장소 요구량 감소
✓ NVIDIA Model Optimizer 최적화 모델 실행 가능
✓ 추론 환경-프로덕션 결과 일치
→ NVIDIA + Apple 협업 — GPU 양자화 포맷을 Apple Silicon에서도 지원
캐시 시스템 개선
3가지 개선
| 개선 | 효과 |
|---|---|
| 캐시 재사용 | 대화 간 메모리 사용량 ↓ |
| 지능형 체크포인트 | 프롬프트 처리량 ↓ + 응답 속도 ↑ |
| 스마트 캐시 제거 정책 | 공유 프리픽스 더 오래 유지 |
시나리오:
여러 대화가 같은 시스템 프롬프트 공유 시
→ 공유 부분 캐시 히트율 대폭 향상
→ 각 대화의 TTFT 감소
시작 방법
설치
# Ollama 0.19 다운로드
# https://ollama.com 에서 최신 버전코딩 에이전트 연결
# Claude Code + Qwen3.5 35B-A3B (NVFP4)
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
# OpenClaw
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
# 직접 대화
ollama run qwen3.5:35b-a3b-coding-nvfp432GB+ 통합 메모리 Mac 필요
MLX란?
Apple MLX = Apple의 머신러닝 프레임워크
특징:
✓ Apple Silicon 통합 메모리 최적화
✓ GPU + Neural Engine 자동 활용
✓ NumPy/PyTorch 유사 API
✓ 지연 평가(lazy evaluation) + JIT 컴파일
✓ macOS 전용
vs PyTorch/CUDA:
PyTorch + CUDA = NVIDIA GPU 최적화
MLX = Apple Silicon 최적화
Ollama 생태계 진화
2024:
Ollama = llama.cpp 래퍼
→ CPU + Metal 기본
2025:
Ollama Launch = Claude Code/Codex 연동
→ 로컬 모델 + 코딩 에이전트
2026 (0.19):
Ollama MLX = Apple Silicon 네이티브 ⭐
→ NVFP4 + 캐시 최적화
→ 1,851 tok/s 프리필
Apple Silicon 세대별 예상 경험
| 칩 | 통합 메모리 | 35B 모델 | 8B 모델 |
|---|---|---|---|
| M1 Pro/Max | 16~64GB | 가능 (느림) | 빠름 |
| M2 Max/Ultra | 64~192GB | 빠름 | 매우 빠름 |
| M3 Max/Ultra | 64~192GB | 빠름 | 매우 빠름 |
| M4 Max | 64~128GB | 빠름 | 매우 빠름 |
| M5 Max/Ultra ⭐ | 64~256GB | 1,851/134 tok/s | 초고속 |
→ 관련: 맥 (Apple Silicon 정보)
향후 계획
✓ 더 많은 모델 지원
✓ 지원 아키텍처 확장
✓ 커스텀 모델 가져오기 (import)
✓ 다른 정밀도 추가 (설계·용도별)
의미: 로컬 AI의 가속
1. Apple + NVIDIA 협업
- NVFP4 = NVIDIA 포맷을 Apple에서 지원
- 생태계 간 벽이 낮아짐
2. "brew install 수준"의 AI
- Ollama 설치 → 모델 pull → 즉시 사용
- 32GB Mac이면 35B 모델 가동
3. 코딩 에이전트의 로컬화
- Claude Code + Ollama MLX
- API 비용 0원 + 프라이버시
4. 캐시 최적화 = 실사용 체감 개선
- TTFT 감소 → 대화 자연스러움
- 공유 프롬프트 캐시 → 멀티 에이전트 효율
5. [[1-bit LLM & Bonsai]]와 결합하면?
- 1비트 모델 (1.15GB) + MLX 가속
- iPhone에서 초고속 추론
크레딧
- MLX 팀: 가속화 프레임워크 개발
- NVIDIA 팀: NVFP4 양자화, Model Optimizer, MLX CUDA 지원
- GGML / llama.cpp 팀: 로컬 프레임워크·커뮤니티 기반
- Alibaba Qwen 팀: 오픈소스 모델 + 협력