Gemma 4 MTP Drafter
핵심 요약
Google은 Gemma 4 제품군용 다중 토큰 예측(MTP, Multi-Token Prediction) drafter를 공개했다. 목적은 출력 품질이나 추론 로직을 바꾸지 않고 추론 속도를 높이는 것이다.
MTP drafter는 추측 디코딩(speculative decoding)의 특화 구조다. 가벼운 drafter가 여러 미래 토큰을 먼저 제안하고, 큰 대상 모델이 이 토큰들을 병렬로 검증한다. 대상 모델이 동의하면 여러 토큰을 한 번의 순전파에서 받아들이고, 추가 토큰 하나도 동시에 생성한다.
Google은 Gemma 4와 MTP drafter 조합으로 최대 약 3배 추론 속도 향상을 제시했다. 가중치는 Hugging Face와 Kaggle에서 Apache 2.0 라이선스로 제공된다.
왜 필요한가
표준 LLM 추론은 자기회귀 방식이다. 한 번에 토큰 하나를 만들고, 다음 토큰을 만들기 위해 다시 전체 모델을 통과한다.
이 방식의 병목은 연산량만이 아니다. 단일 토큰을 만들기 위해 수십억 개 파라미터를 VRAM에서 연산 유닛으로 옮겨야 하므로 메모리 대역폭 병목이 커진다. 특히 소비자 GPU나 온디바이스 환경에서는 연산 유닛이 놀고, 메모리 이동이 전체 지연을 지배하기 쉽다.
문제는 쉬운 다음 토큰 예측과 어려운 추론 문제에 같은 방식의 계산을 쓴다는 점이다. 예를 들어 “Actions speak louder than…” 뒤의 “words” 예측과 복잡한 수학 문제 풀이가 동일하게 한 토큰씩 진행된다.
동작 방식
MTP drafter는 다음 흐름으로 동작한다.
- 사용자 프롬프트와 기존 컨텍스트를 대상 모델이 처리한다.
- 가벼운 drafter가 여러 개의 미래 토큰 후보를 빠르게 제안한다.
- 대상 모델이 제안된 토큰 시퀀스를 병렬로 검증한다.
- 대상 모델이 동의한 토큰들은 한 번에 확정된다.
- 대상 모델은 검증 과정에서 추가 토큰 하나도 생성한다.
결과적으로 애플리케이션은 보통 단일 토큰 생성 시간에 여러 토큰을 얻을 수 있다. 최종 검증은 항상 원래 Gemma 4 모델이 담당하므로, 출력 품질은 대상 모델 기준으로 유지된다.
내부 최적화
Gemma 4 MTP drafter는 단순한 작은 모델이 아니라 대상 모델과 결합되도록 설계됐다.
- 대상 모델의 활성값을 활용한다.
- 대상 모델의 KV 캐시를 공유한다.
- 같은 문맥을 drafter가 다시 계산하지 않게 한다.
- E2B와 E4B 엣지 모델에서는 임베더 클러스터링으로 최종 로짓 계산 병목을 줄인다.
KV 캐시 공유가 중요하다. 큰 모델이 이미 처리한 문맥을 작은 drafter가 다시 읽고 계산하면 속도 이득이 줄어든다. MTP drafter는 이 중복을 줄여 추측 디코딩의 실효 속도를 높인다.
성능 효과
MTP drafter의 효과는 지연 시간이 중요한 환경에서 크다.
- 자율 에이전트: 다단계 계획과 도구 호출 사이의 토큰 생성 지연 감소.
- 코딩 어시스턴트: 긴 코드 생성과 수정 루프의 체감 속도 개선.
- 음성 애플리케이션: 거의 실시간 응답에 필요한 latency 절감.
- 로컬 개발: 소비자 GPU나 Apple Silicon에서 더 큰 모델을 실용적으로 실행.
- 온디바이스 AI: 모바일/엣지 기기에서 배터리와 지연 시간 모두 개선.
Google은 LiteRT-LM, MLX, Hugging Face Transformers, vLLM 등에서 테스트했다고 설명한다. Apple Silicon에서는 26B MoE 모델이 배치 크기 4~8일 때 더 큰 속도 향상을 보였고, NVIDIA A100에서도 배치 크기 증가에 따라 유사한 개선이 나타났다.
추론 인프라 관점
MTP drafter는 대규모 LLM 추론 인프라에서 말하는 추론 최적화의 한 형태다. 데이터센터에서는 배치 추론, KV 캐싱, 모델 샤딩, 텐서 병렬성으로 처리량을 높이고, 모델 아키텍처 수준에서는 MTP와 추측 디코딩으로 토큰 생성 루프 자체를 줄인다.
NVIDIA Nemotron 3 Super도 MTP 레이어를 내장해 네이티브 투기적 디코딩을 지원한다. 차이는 Gemma 4는 별도 drafter를 붙이는 방향이고, Nemotron 3 Super는 모델 아키텍처 내부에 MTP를 포함하는 방향이라는 점이다.
시사점
LLM 경쟁은 더 큰 모델만의 문제가 아니라, 같은 품질을 더 빠르고 싸게 내는 방향으로 이동하고 있다. MTP drafter는 모델 품질을 직접 높이는 기술이라기보다, 이미 있는 모델의 추론 비용과 응답성을 개선하는 배포 기술에 가깝다.
에이전트형 워크로드가 늘수록 이 차이는 더 중요해진다. 한 번의 사용자 요청 안에서 수십 번의 내부 추론이 발생하면, 토큰 하나의 지연과 비용이 전체 제품 경험을 결정한다.