개요

NVIDIA Nemotron 3 Super는 총 120B 파라미터를 가지지만, 추론 시에는 12B만 활성화하는 하이브리드 MoE 모델입니다.

  • Mamba + Transformer 하이브리드
  • LatentMoE
  • NVFP4 기반 사전학습
  • MTP(Multi-Token Prediction)
  • 최대 100만 토큰 컨텍스트

핵심은 단순히 “더 큰 모델”이 아니라, 같은 정확도를 더 싸고 빠르게 내는 아키텍처라는 점입니다.


한 줄 요약

“Nemotron 3 Super는 추론 효율을 1급 목표로 삼아, 큰 모델의 품질과 작은 모델의 비용 구조를 동시에 노리는 NVIDIA식 청사진이다.”


핵심 수치

  • 총 파라미터: 120B
  • 활성 파라미터: 12B
  • 컨텍스트: 최대 100만 토큰
  • 학습 데이터: 25조 토큰
  • GPT-OSS-120B 대비 2.2배 높은 추론 처리량
  • Qwen3.5-122B 대비 7.5배 높은 추론 처리량

즉, “120B급 성능”을 주장하면서도 실제 추론 비용은 훨씬 낮추려는 구조입니다.


아키텍처의 핵심

1. Mamba-Transformer 하이브리드

  • 대부분 레이어는 Mamba 계열 상태공간 모델
  • 일부 레이어만 Transformer 어텐션 사용

이 조합의 목적은:

  • 긴 시퀀스에서 선형 복잡도로 버티기
  • 동시에 전역 패턴 포착 능력 유지

100만 토큰 컨텍스트를 현실적으로 다루려면 이런 구조가 필요합니다.

2. LatentMoE

  • 모든 파라미터를 매번 쓰지 않고 일부 전문가만 활성화
  • 120B 중 12B만 추론에 사용
  • FLOP당 정확도와 파라미터당 정확도를 동시에 최적화하려는 설계

즉, 큰 모델의 저장 용량작은 모델의 실행 비용을 동시에 노립니다.

3. MTP

  • 한 번에 다음 토큰 하나만 예측하지 않음
  • 여러 토큰을 동시에 예측
  • 모델 내부에서 speculative decoding을 네이티브로 수행

별도 보조 모델 없이 디코딩 속도를 올리는 점이 중요합니다.


NVFP4 사전학습의 의미

일반적인 양자화는 학습 후 적용하는 post-training quantization입니다.
Nemotron 3 Super는 다르게, 처음부터 NVFP4(4비트 부동소수점)로 사전학습했습니다.

이게 중요한 이유:

  • 학습 단계부터 메모리와 연산량 절감
  • 배포 시 추가 양자화 필요 없음
  • 4비트 환경에 모델이 처음부터 적응
  • Blackwell GPU의 FP4 하드웨어를 직접 활용 가능

즉, 이 모델은 단순히 “4비트로 압축된 모델”이 아니라, 4비트가 원래 형태인 모델에 가깝습니다.


왜 빠른가

추론 처리량 향상의 이유는 네 가지가 겹쳐 있습니다.

  1. MoE로 활성 파라미터 감소
  2. Mamba 하이브리드로 긴 시퀀스 비용 절감
  3. NVFP4로 메모리 대역폭 병목 완화
  4. MTP로 토큰 생성 가속

즉, 속도 향상은 하나의 트릭이 아니라 여러 층의 효율화가 누적된 결과입니다.


Agentic reasoning과의 연결

NVIDIA가 이 모델을 강조하는 맥락은 에이전틱 추론(agentic reasoning)입니다.

에이전트 워크로드는:

  • 도구 호출
  • 결과 해석
  • 계획 수정
  • 반복 추론

을 여러 번 수행하므로, 단순 챗봇보다 훨씬 많은 토큰과 추론 단계를 소모합니다.

여기서 중요한 것은 최고 점수보다도:

  • 토큰당 비용
  • 단계당 지연시간
  • 긴 컨텍스트 처리 능력

즉, Nemotron 3 Super는 챗봇보다 장시간 실행 에이전트에 더 잘 맞는 구조로 보입니다.


오픈소스 전략

NVIDIA는 데이터셋, 기본 모델, 후처리 모델, 양자화 체크포인트까지 Hugging Face에 공개했습니다.

이 전략의 의미:

  • 연구 커뮤니티는 LatentMoE, NVFP4 학습, Mamba 하이브리드 구조를 재현 가능
  • NVIDIA는 모델 서비스보다 GPU 판매가 핵심이므로, 오픈소스가 하드웨어 수요 확대와 직결

즉, 모델은 열고, 최적 실행 환경은 자사 GPU로 귀결되는 구조입니다.


의미

Nemotron 3 Super가 보여주는 본질은 단순히 “좋은 오픈소스 모델이 하나 더 나왔다”는 게 아닙니다.

더 중요한 건:

  • 추론 비용이 모델 설계의 1급 제약조건이 됐고
  • 큰 모델도 효율 중심으로 다시 설계되며
  • 장기 실행 에이전트 시대에는 FLOP, 메모리, 디코딩 구조가 직접 제품 경쟁력을 좌우한다는 점

즉, 경쟁 축이 더 큰 모델에서 더 효율적인 추론 아키텍처로 이동하고 있음을 보여주는 사례입니다.