개요
NVIDIA Nemotron 3 Super는 총 120B 파라미터를 가지지만, 추론 시에는 12B만 활성화하는 하이브리드 MoE 모델입니다.
- Mamba + Transformer 하이브리드
- LatentMoE
- NVFP4 기반 사전학습
- MTP(Multi-Token Prediction)
- 최대 100만 토큰 컨텍스트
핵심은 단순히 “더 큰 모델”이 아니라, 같은 정확도를 더 싸고 빠르게 내는 아키텍처라는 점입니다.
한 줄 요약
“Nemotron 3 Super는 추론 효율을 1급 목표로 삼아, 큰 모델의 품질과 작은 모델의 비용 구조를 동시에 노리는 NVIDIA식 청사진이다.”
핵심 수치
- 총 파라미터: 120B
- 활성 파라미터: 12B
- 컨텍스트: 최대 100만 토큰
- 학습 데이터: 25조 토큰
- GPT-OSS-120B 대비 2.2배 높은 추론 처리량
- Qwen3.5-122B 대비 7.5배 높은 추론 처리량
즉, “120B급 성능”을 주장하면서도 실제 추론 비용은 훨씬 낮추려는 구조입니다.
아키텍처의 핵심
1. Mamba-Transformer 하이브리드
- 대부분 레이어는 Mamba 계열 상태공간 모델
- 일부 레이어만 Transformer 어텐션 사용
이 조합의 목적은:
- 긴 시퀀스에서 선형 복잡도로 버티기
- 동시에 전역 패턴 포착 능력 유지
100만 토큰 컨텍스트를 현실적으로 다루려면 이런 구조가 필요합니다.
2. LatentMoE
- 모든 파라미터를 매번 쓰지 않고 일부 전문가만 활성화
- 120B 중 12B만 추론에 사용
- FLOP당 정확도와 파라미터당 정확도를 동시에 최적화하려는 설계
즉, 큰 모델의 저장 용량과 작은 모델의 실행 비용을 동시에 노립니다.
3. MTP
- 한 번에 다음 토큰 하나만 예측하지 않음
- 여러 토큰을 동시에 예측
- 모델 내부에서 speculative decoding을 네이티브로 수행
별도 보조 모델 없이 디코딩 속도를 올리는 점이 중요합니다.
NVFP4 사전학습의 의미
일반적인 양자화는 학습 후 적용하는 post-training quantization입니다.
Nemotron 3 Super는 다르게, 처음부터 NVFP4(4비트 부동소수점)로 사전학습했습니다.
이게 중요한 이유:
- 학습 단계부터 메모리와 연산량 절감
- 배포 시 추가 양자화 필요 없음
- 4비트 환경에 모델이 처음부터 적응
- Blackwell GPU의 FP4 하드웨어를 직접 활용 가능
즉, 이 모델은 단순히 “4비트로 압축된 모델”이 아니라, 4비트가 원래 형태인 모델에 가깝습니다.
왜 빠른가
추론 처리량 향상의 이유는 네 가지가 겹쳐 있습니다.
- MoE로 활성 파라미터 감소
- Mamba 하이브리드로 긴 시퀀스 비용 절감
- NVFP4로 메모리 대역폭 병목 완화
- MTP로 토큰 생성 가속
즉, 속도 향상은 하나의 트릭이 아니라 여러 층의 효율화가 누적된 결과입니다.
Agentic reasoning과의 연결
NVIDIA가 이 모델을 강조하는 맥락은 에이전틱 추론(agentic reasoning)입니다.
에이전트 워크로드는:
- 도구 호출
- 결과 해석
- 계획 수정
- 반복 추론
을 여러 번 수행하므로, 단순 챗봇보다 훨씬 많은 토큰과 추론 단계를 소모합니다.
여기서 중요한 것은 최고 점수보다도:
- 토큰당 비용
- 단계당 지연시간
- 긴 컨텍스트 처리 능력
즉, Nemotron 3 Super는 챗봇보다 장시간 실행 에이전트에 더 잘 맞는 구조로 보입니다.
오픈소스 전략
NVIDIA는 데이터셋, 기본 모델, 후처리 모델, 양자화 체크포인트까지 Hugging Face에 공개했습니다.
이 전략의 의미:
- 연구 커뮤니티는 LatentMoE, NVFP4 학습, Mamba 하이브리드 구조를 재현 가능
- NVIDIA는 모델 서비스보다 GPU 판매가 핵심이므로, 오픈소스가 하드웨어 수요 확대와 직결
즉, 모델은 열고, 최적 실행 환경은 자사 GPU로 귀결되는 구조입니다.
의미
Nemotron 3 Super가 보여주는 본질은 단순히 “좋은 오픈소스 모델이 하나 더 나왔다”는 게 아닙니다.
더 중요한 건:
- 추론 비용이 모델 설계의 1급 제약조건이 됐고
- 큰 모델도 효율 중심으로 다시 설계되며
- 장기 실행 에이전트 시대에는 FLOP, 메모리, 디코딩 구조가 직접 제품 경쟁력을 좌우한다는 점
즉, 경쟁 축이 더 큰 모델에서 더 효율적인 추론 아키텍처로 이동하고 있음을 보여주는 사례입니다.