Nemotron 3 Nano Omni

핵심 요약

Nemotron 3 Nano Omni는 NVIDIA가 공개한 로컬 실행용 소형 멀티모달 모델이다. 총 300억 파라미터, 활성 30억 파라미터 규모의 MoE 모델로, 영상·이미지·음성·텍스트를 입력받아 텍스트로 응답한다.

이 모델의 핵심 위치는 메인 오케스트레이터가 아니라 서브 에이전트다. 복잡한 추론이나 도구 실행을 맡기기보다는, 음성·이미지·영상을 텍스트나 JSON 형태로 바꿔 상위 모델에 넘기는 감각 기관 역할에 적합하다.

한 줄로 정리하면, Omni는 로컬 AI 에이전트의 “눈과 귀”다.

왜 중요한가

AI 에이전트에서 비싼 부분은 항상 텍스트 생성이 아니다. 영상, 음성, 이미지 같은 멀티모달 입력을 클라우드 API로 처리하면 텍스트 대비 토큰 비용이 크게 뛴다.

Omni의 의미는 이 비용 구조를 바꾸는 데 있다.

  • 영상·이미지·음성 전처리를 로컬 GPU에서 수행한다.
  • 클라우드 멀티모달 토큰 비용을 줄인다.
  • 민감한 데이터나 사내 자료를 외부 API로 보내지 않아도 된다.
  • 상위 LLM은 이미 정리된 텍스트/구조화 데이터만 받아 판단하면 된다.

RTX 3090 한 장에서도 구동 가능하다는 점은 30B급 모델이 고급 게이밍 GPU의 현실적 스위트 스팟에 들어왔다는 신호다.

에이전트 시스템 안에서의 역할

Omni는 범용 비서가 아니다. NVIDIA 측도 “왕국의 열쇠를 넘길 모델은 아니다”라는 식으로 설명했다. 즉, 이 모델에게 전체 시스템 제어권을 주면 안 된다.

적합한 역할은 다음과 같다.

  • 음성 명령을 텍스트 명령으로 변환.
  • 그래프, 스크린샷, 이미지 내용을 요약.
  • 영상의 장면과 자막을 함께 설명.
  • 팟캐스트나 강의 영상에 타임스탬프 기반 의미 인덱스 생성.
  • 상위 모델이 판단할 수 있도록 멀티모달 입력을 구조화.

상위 모델은 MiniMax, Qwen, Claude, GPT 같은 더 강한 LLM이 맡고, Omni는 감각 입력 계층으로 배치하는 구성이 안정적이다.

Turnstone 사례

Level One Tux의 Wendell은 Turnstone이라는 로컬 에이전트 오케스트레이션 시스템에 Omni를 붙였다.

Turnstone의 구조는 다음과 같다.

  • 최상위 오케스트레이터가 전체 작업을 조율한다.
  • 여러 워크스트림이 병렬로 돈다.
  • 각 워크스트림은 특정 모델과 스킬 세트를 가진다.
  • 스킬은 Wi-Fi 테스트, 지터 분석, 그래프 생성 같은 사전 정의 도구 묶음이다.

Omni는 여기서 두 가지 역할을 맡는다.

  • 음성 인식: 사용자의 음성 명령을 텍스트로 바꿔 상위 모델에 전달.
  • 시각 분석: 테스트 그래프 이미지를 읽고 병목이나 이상 패턴을 설명.

중요한 점은 Omni가 직접 도구를 실행하지 않는다는 것이다. Omni는 보고 듣는 역할을 하고, 판단과 실행은 상위 모델과 검증 가능한 도구가 담당한다.

비결정성 통제

글에서 가장 중요한 실전 원칙은 LLM의 비결정성을 모델 안에서 해결하려 하지 않고, 모델 바깥 하네스에서 통제한다는 점이다.

Turnstone은 다음 장치를 조합한다.

  • 저지 모델: 메인 모델의 출력을 별도 모델이 검토.
  • 휴리스틱 규칙: 파일 삭제, sudo, 디렉터리 접근 같은 위험 작업을 코드로 제한.
  • 출력 가드: 프롬프트 인젝션이나 이상 출력 패턴을 검사.
  • 도구 호출 제한: LLM이 상상하지 않고 실제 시스템 도구만 호출하도록 설계.

이 접근은 OpenClaw류의 YOLO 실행 방식과 대비된다. 모델을 풀어놓는 대신, 사용할 수 있는 도구와 허용 범위를 좁힌다.

영상 의미 검색 사례

The Neuron AI의 Corey는 Omni를 팟캐스트 영상 아카이브 검색에 활용했다.

파이프라인은 다음과 같다.

  1. Omni가 영상을 처리해 자막뿐 아니라 화면 내용까지 설명한다.
  2. 자막과 시각 설명을 의미 단위 청크로 나눈다.
  3. 각 청크에 타임스탬프와 메타데이터를 붙인다.
  4. Mercury 2 같은 클라우드 모델로 인명·회사명·기술 용어를 검증한다.
  5. 텍스트는 임베딩 모델로 벡터화한다.
  6. 정형 데이터는 SQLite에, 벡터는 Qdrant에 저장한다.

이렇게 하면 “MoE에 대해 논의한 모든 구간” 같은 의미 검색이 가능해진다. 기존 STT는 “무슨 말을 했는가”만 다루지만, Omni는 “그때 화면에 무엇이 보였는가”까지 함께 다룬다.

로컬과 클라우드의 조합

Omni의 가치는 클라우드를 완전히 대체하는 데 있지 않다. 더 현실적인 전략은 역할 분담이다.

  • 로컬 Omni: 멀티모달 전처리, 사내/개인 데이터 처리, 대량 영상 분석.
  • 클라우드 프론티어 모델: 고난도 추론, 복잡한 의사결정, 최종 보고서 작성.
  • 작은 저지 모델: 보안 검사, 정책 검증, 출력 가드.
  • 규칙 기반 코드: 권한, 파일 시스템, 승인 흐름 강제.

즉, 단일 거대 모델 하나가 모든 것을 처리하는 방식보다, 여러 크기와 전문성의 모델을 하네스 안에서 배치하는 방식이 비용·속도·신뢰성 면에서 유리하다.

도구 호출의 한계

현재 Omni의 약점은 도구 호출 정확도다. 파일 시스템 조작이나 복잡한 외부 도구 실행을 직접 맡기면 더 많은 맥락이 필요하고 결과가 불안정해진다.

따라서 안정적인 설계는 다음과 같다.

  • Omni에게 도구 실행을 맡기지 않는다.
  • Omni는 멀티모달 입력을 텍스트나 JSON으로 구조화한다.
  • 도구 실행은 더 강한 LLM과 엄격한 하네스가 담당한다.
  • 위험 작업은 휴리스틱 규칙과 사람 승인으로 제한한다.

이 점은 MCP 도구 설계와 어포던스와도 연결된다. 모델에게 도구를 많이 주는 것보다, 모델이 언제 어떤 도구를 써야 하는지 명확하게 설계하는 것이 더 중요하다.

하네스의 해

글의 핵심 표현은 “올해는 하네스의 해”다. 하네스는 모델을 감싸는 실행 환경, 도구 연결, 권한 제어, 출력 검증, 메모리, 세션 관리의 총체다.

중요한 판단 기준은 “어떤 모델이 가장 똑똑한가”가 아니라 “각 모델을 어디에 배치할 것인가”다.

  • 멀티모달 감각 처리: Omni 같은 소형 전문 모델.
  • 계획과 판단: 더 강한 LLM.
  • 검증: 저지 모델과 테스트.
  • 실행: 검증 가능한 도구.
  • 안전: 규칙 기반 권한 제어.

이는 하네스 엔지니어링 백과사전 요약, 코딩 에이전트 하니스 & Hashline, 장기 실행 에이전트 (Long-Running Agents)와 같은 흐름의 연장선이다.

핵심 통찰

Nemotron 3 Nano Omni가 보여주는 교훈은 모델 성능 자체보다 배치 전략이다. 모든 단계에 프론티어 모델을 쓰는 것은 오버모델링이고, 비용과 통제력 양쪽에서 손해가 될 수 있다.

실전 에이전트 시스템에서는 각 단계마다 질문해야 한다.

  • 이 단계에 정말 프론티어 모델이 필요한가?
  • 이 입력은 로컬 소형 모델로 충분히 구조화할 수 있는가?
  • 이 작업은 LLM 판단이 아니라 규칙이나 도구로 처리해야 하는가?
  • 모델이 실패했을 때 하네스가 막아줄 수 있는가?

로컬 멀티모달 서브에이전트는 이 질문에 대한 구체적인 답이다.

관련 노트