Ollama MLX (Apple Silicon 가속)

개요

Ollama 0.19부터 Apple의 MLX 프레임워크 기반으로 구동되는 프리뷰 공개. Apple Silicon의 통합 메모리 아키텍처 + GPU Neural Accelerator를 활용해 대폭 성능 향상. M5 칩 기준 Qwen3.5-35B-A3B (NVFP4)에서 프리필 1,851 tok/s, 디코드 134 tok/s 달성. NVFP4 양자화 형식 지원 + 캐시 시스템 개선.

출처: ollama.com (2026-03-29)
버전: Ollama 0.19 프리뷰
요구사항: 32GB+ 통합 메모리 Mac (Apple Silicon)

핵심 변화

이전 Ollama (macOS):
  - llama.cpp 기반
  - Metal API 직접 사용
  - 범용 최적화

Ollama 0.19+ (MLX 프리뷰):
  - Apple MLX 프레임워크 기반 ⭐
  - GPU Neural Accelerator 활용 (M5 시리즈)
  - Apple Silicon 통합 메모리 최적화
  - NVFP4 형식 지원

성능 벤치마크 (M5 기준)

Qwen3.5-35B-A3B 테스트

항목	Ollama 기존 (Q4_K_M)	Ollama 0.19 (NVFP4)
프리필 (TTFT)	느림	1,851 tok/s ⭐
디코드 (생성)	느림	134 tok/s
양자화	Q4_K_M (4bit)	NVFP4

→ 관련: Claude Code 로컬 모델 (Ollama) (Ollama 활용법)

NVFP4 양자화

NVIDIA NVFP4 형식:
  ✓ 모델 정확도 유지
  ✓ 메모리 대역폭 감소
  ✓ 저장소 요구량 감소
  ✓ NVIDIA Model Optimizer 최적화 모델 실행 가능
  ✓ 추론 환경-프로덕션 결과 일치

→ NVIDIA + Apple 협업 — GPU 양자화 포맷을 Apple Silicon에서도 지원

캐시 시스템 개선

3가지 개선

개선	효과
캐시 재사용	대화 간 메모리 사용량 ↓
지능형 체크포인트	프롬프트 처리량 ↓ + 응답 속도 ↑
스마트 캐시 제거 정책	공유 프리픽스 더 오래 유지

시나리오:
  여러 대화가 같은 시스템 프롬프트 공유 시
  → 공유 부분 캐시 히트율 대폭 향상
  → 각 대화의 TTFT 감소

시작 방법

설치

# Ollama 0.19 다운로드
# https://ollama.com 에서 최신 버전

코딩 에이전트 연결

# Claude Code + Qwen3.5 35B-A3B (NVFP4)
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
 
# OpenClaw
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
 
# 직접 대화
ollama run qwen3.5:35b-a3b-coding-nvfp4

32GB+ 통합 메모리 Mac 필요

MLX란?

Apple MLX = Apple의 머신러닝 프레임워크

특징:
  ✓ Apple Silicon 통합 메모리 최적화
  ✓ GPU + Neural Engine 자동 활용
  ✓ NumPy/PyTorch 유사 API
  ✓ 지연 평가(lazy evaluation) + JIT 컴파일
  ✓ macOS 전용

vs PyTorch/CUDA:
  PyTorch + CUDA = NVIDIA GPU 최적화
  MLX = Apple Silicon 최적화

Ollama 생태계 진화

2024:
  Ollama = llama.cpp 래퍼
  → CPU + Metal 기본

2025:
  Ollama Launch = Claude Code/Codex 연동
  → 로컬 모델 + 코딩 에이전트

2026 (0.19):
  Ollama MLX = Apple Silicon 네이티브 ⭐
  → NVFP4 + 캐시 최적화
  → 1,851 tok/s 프리필

Apple Silicon 세대별 예상 경험

칩	통합 메모리	35B 모델	8B 모델
M1 Pro/Max	16~64GB	가능 (느림)	빠름
M2 Max/Ultra	64~192GB	빠름	매우 빠름
M3 Max/Ultra	64~192GB	빠름	매우 빠름
M4 Max	64~128GB	빠름	매우 빠름
M5 Max/Ultra ⭐	64~256GB	1,851/134 tok/s	초고속

→ 관련: 맥 (Apple Silicon 정보)

향후 계획

✓ 더 많은 모델 지원
✓ 지원 아키텍처 확장
✓ 커스텀 모델 가져오기 (import)
✓ 다른 정밀도 추가 (설계·용도별)

의미: 로컬 AI의 가속

1. Apple + NVIDIA 협업
   - NVFP4 = NVIDIA 포맷을 Apple에서 지원
   - 생태계 간 벽이 낮아짐

2. "brew install 수준"의 AI
   - Ollama 설치 → 모델 pull → 즉시 사용
   - 32GB Mac이면 35B 모델 가동

3. 코딩 에이전트의 로컬화
   - Claude Code + Ollama MLX
   - API 비용 0원 + 프라이버시

4. 캐시 최적화 = 실사용 체감 개선
   - TTFT 감소 → 대화 자연스러움
   - 공유 프롬프트 캐시 → 멀티 에이전트 효율

5. [[1-bit LLM & Bonsai]]와 결합하면?
   - 1비트 모델 (1.15GB) + MLX 가속
   - iPhone에서 초고속 추론

크레딧

MLX 팀: 가속화 프레임워크 개발
NVIDIA 팀: NVFP4 양자화, Model Optimizer, MLX CUDA 지원
GGML / llama.cpp 팀: 로컬 프레임워크·커뮤니티 기반
Alibaba Qwen 팀: 오픈소스 모델 + 협력

Bigstones

Explorer