Nemotron OCR v1

개요

Nemotron OCR v1은 NVIDIA가 2025년 10월 출시한 프로덕션급 OCR 모델입니다. 텍스트 검출 + 인식 + 레이아웃 분석을 하나의 엔드투엔드 파이프라인으로 통합한 하이브리드 아키텍처입니다.

개발: NVIDIA
출시: 2025.10
파라미터: 52.5M (경량)
라이선스: NVIDIA Open Model License
HuggingFace: https://huggingface.co/nvidia/nemotron-ocr-v1
NIM API: https://build.nvidia.com/nvidia/nemotron-ocr-v1

아키텍처

3개의 신경망 모듈을 통합한 하이브리드 구조:

입력 이미지
    │
[Text Detector]        RegNetY-8GF CNN 백본
텍스트 영역 검출         → 바운딩 박스 위치 추출
    │
[Text Recognizer]      Transformer 기반 시퀀스 인식기
텍스트 전사             → 가변 길이 단어/줄 처리
    │
[Relational Model]     멀티레이어 글로벌 관계 모듈
레이아웃 분석           → 읽기 순서, 논리적 그룹핑
    │
구조화된 OCR 결과
(바운딩 박스 + 텍스트 + 신뢰도)

모듈	아키텍처	역할
Text Detector	RegNetY-8GF CNN	텍스트 영역 위치 검출
Text Recognizer	Transformer	텍스트 전사 (가변 길이)
Relational Model	글로벌 관계 모듈	읽기 순서, 레이아웃 그룹핑

성능 벤치마크

PaddleOCR 대비 내부 평가 데이터셋 기준:

지표	개선
Character Error Rate (CER)	19.5% 개선
Bag-of-word Error Rate	56.2% 개선
Multimodal Retrieval Recall@5	0.5~2.0% 개선

주요 기능

복잡한 문서 OCR: 스캔 문서, 영수증, 자연 장면 이미지
멀티라인/멀티블록 텍스트 처리
읽기 순서 분석: 관계 모델로 자연스러운 읽기 순서 예측
테이블 콘텐츠 추출 (TEDS 지표 우수)
문서 검색 파이프라인 연동

입출력 스펙

항목	내용
입력	RGB 이미지 (PNG/JPEG), float32 / uint8
처리	단일/배치 모두 지원
출력	바운딩 박스 리스트 + 인식 텍스트 + 신뢰도 점수
언어	영어 (현재)
GPU	Ampere~Blackwell 아키텍처
런타임	TensorRT 또는 PyTorch

사용법

Python (Hugging Face)

from transformers import AutoProcessor, AutoModel
import torch
from PIL import Image
 
model = AutoModel.from_pretrained("nvidia/nemotron-ocr-v1")
processor = AutoProcessor.from_pretrained("nvidia/nemotron-ocr-v1")
 
image = Image.open("document.png")
inputs = processor(images=image, return_tensors="pt")
 
with torch.no_grad():
    outputs = model(**inputs)
 
# 결과: 바운딩 박스, 텍스트, 신뢰도

NVIDIA NIM API

import requests
 
response = requests.post(
    "https://integrate.api.nvidia.com/v1/ocr",
    headers={"Authorization": f"Bearer {API_KEY}"},
    json={"image": base64_image}
)
result = response.json()
# result: [{"bbox": [...], "text": "...", "confidence": 0.98}]

모델	특징
Nemotron OCR v1	전통적 OCR (검출+인식+레이아웃), 52.5M 파라미터, 경량
NemoRetriever OCR	RAG/검색 파이프라인용 OCR, 문서 검색 특화
Llama Nemotron Nano VL	VLM 기반, OCRBench v2 1위, Q&A/표/차트 이해
Nemotron-Parse	문서 파싱 특화, 구조화 데이터 추출

경쟁 모델 비교

모델	유형	특징
Nemotron OCR v1	하이브리드 CNN+Transformer	NVIDIA, 프로덕션급, 52.5M
PaddleOCR	CNN 기반	오픈소스, 다국어, 가장 널리 사용
Tesseract	LSTM	오픈소스, 100+ 언어, 느림
EasyOCR	CRAFT+CRNN	파이썬 친화, 80+ 언어
Surya	Transformer	오픈소스, 90+ 언어, PDF 특화
GOT-OCR 2.0	VLM 기반	수식/표/도식 포함 범용

훈련 데이터

공개 + 독점 OCR 데이터셋 혼합
다양한 문서 레이아웃 + 자연 장면 이미지
합성 이미지 + 실제 이미지 (다양한 노이즈/배경)
상업적 사용 가능 데이터만 필터링

Bigstones

Explorer

Nemotron OCR v1

개요

아키텍처

성능 벤치마크

주요 기능

입출력 스펙

사용법

Python (Hugging Face)

NVIDIA NIM API

관련 NVIDIA OCR/문서 모델

경쟁 모델 비교

훈련 데이터

관련 항목

Graph View

Table of Contents

Backlinks