NVIDIA Nemotron 3 Super

개요

NVIDIA Nemotron 3 Super는 총 120B 파라미터를 가지지만, 추론 시에는 12B만 활성화하는 하이브리드 MoE 모델입니다.

Mamba + Transformer 하이브리드
LatentMoE
NVFP4 기반 사전학습
MTP(Multi-Token Prediction)
최대 100만 토큰 컨텍스트

핵심은 단순히 “더 큰 모델”이 아니라, 같은 정확도를 더 싸고 빠르게 내는 아키텍처라는 점입니다.

한 줄 요약

“Nemotron 3 Super는 추론 효율을 1급 목표로 삼아, 큰 모델의 품질과 작은 모델의 비용 구조를 동시에 노리는 NVIDIA식 청사진이다.”

핵심 수치

총 파라미터: 120B
활성 파라미터: 12B
컨텍스트: 최대 100만 토큰
학습 데이터: 25조 토큰
GPT-OSS-120B 대비 2.2배 높은 추론 처리량
Qwen3.5-122B 대비 7.5배 높은 추론 처리량

즉, “120B급 성능”을 주장하면서도 실제 추론 비용은 훨씬 낮추려는 구조입니다.

아키텍처의 핵심

1. Mamba-Transformer 하이브리드

대부분 레이어는 Mamba 계열 상태공간 모델
일부 레이어만 Transformer 어텐션 사용

이 조합의 목적은:

긴 시퀀스에서 선형 복잡도로 버티기
동시에 전역 패턴 포착 능력 유지

100만 토큰 컨텍스트를 현실적으로 다루려면 이런 구조가 필요합니다.

2. LatentMoE

모든 파라미터를 매번 쓰지 않고 일부 전문가만 활성화
120B 중 12B만 추론에 사용
FLOP당 정확도와 파라미터당 정확도를 동시에 최적화하려는 설계

즉, 큰 모델의 저장 용량과 작은 모델의 실행 비용을 동시에 노립니다.

3. MTP

한 번에 다음 토큰 하나만 예측하지 않음
여러 토큰을 동시에 예측
모델 내부에서 speculative decoding을 네이티브로 수행

별도 보조 모델 없이 디코딩 속도를 올리는 점이 중요합니다.

NVFP4 사전학습의 의미

일반적인 양자화는 학습 후 적용하는 post-training quantization입니다.
Nemotron 3 Super는 다르게, 처음부터 NVFP4(4비트 부동소수점)로 사전학습했습니다.

이게 중요한 이유:

학습 단계부터 메모리와 연산량 절감
배포 시 추가 양자화 필요 없음
4비트 환경에 모델이 처음부터 적응
Blackwell GPU의 FP4 하드웨어를 직접 활용 가능

즉, 이 모델은 단순히 “4비트로 압축된 모델”이 아니라, 4비트가 원래 형태인 모델에 가깝습니다.

왜 빠른가

추론 처리량 향상의 이유는 네 가지가 겹쳐 있습니다.

MoE로 활성 파라미터 감소
Mamba 하이브리드로 긴 시퀀스 비용 절감
NVFP4로 메모리 대역폭 병목 완화
MTP로 토큰 생성 가속

즉, 속도 향상은 하나의 트릭이 아니라 여러 층의 효율화가 누적된 결과입니다.

Agentic reasoning과의 연결

NVIDIA가 이 모델을 강조하는 맥락은 에이전틱 추론(agentic reasoning)입니다.

에이전트 워크로드는:

도구 호출
결과 해석
계획 수정
반복 추론

을 여러 번 수행하므로, 단순 챗봇보다 훨씬 많은 토큰과 추론 단계를 소모합니다.

여기서 중요한 것은 최고 점수보다도:

토큰당 비용
단계당 지연시간
긴 컨텍스트 처리 능력

즉, Nemotron 3 Super는 챗봇보다 장시간 실행 에이전트에 더 잘 맞는 구조로 보입니다.

오픈소스 전략

NVIDIA는 데이터셋, 기본 모델, 후처리 모델, 양자화 체크포인트까지 Hugging Face에 공개했습니다.

이 전략의 의미:

연구 커뮤니티는 LatentMoE, NVFP4 학습, Mamba 하이브리드 구조를 재현 가능
NVIDIA는 모델 서비스보다 GPU 판매가 핵심이므로, 오픈소스가 하드웨어 수요 확대와 직결

즉, 모델은 열고, 최적 실행 환경은 자사 GPU로 귀결되는 구조입니다.

의미

Nemotron 3 Super가 보여주는 본질은 단순히 “좋은 오픈소스 모델이 하나 더 나왔다”는 게 아닙니다.

더 중요한 건:

추론 비용이 모델 설계의 1급 제약조건이 됐고
큰 모델도 효율 중심으로 다시 설계되며
장기 실행 에이전트 시대에는 FLOP, 메모리, 디코딩 구조가 직접 제품 경쟁력을 좌우한다는 점

즉, 경쟁 축이 더 큰 모델에서 더 효율적인 추론 아키텍처로 이동하고 있음을 보여주는 사례입니다.

Bigstones

Explorer