개요
Nemotron OCR v1은 NVIDIA가 2025년 10월 출시한 프로덕션급 OCR 모델 입니다. 텍스트 검출 + 인식 + 레이아웃 분석을 하나의 엔드투엔드 파이프라인으로 통합한 하이브리드 아키텍처입니다.
아키텍처
3개의 신경망 모듈을 통합한 하이브리드 구조:
입력 이미지
│
[Text Detector] RegNetY-8GF CNN 백본
텍스트 영역 검출 → 바운딩 박스 위치 추출
│
[Text Recognizer] Transformer 기반 시퀀스 인식기
텍스트 전사 → 가변 길이 단어/줄 처리
│
[Relational Model] 멀티레이어 글로벌 관계 모듈
레이아웃 분석 → 읽기 순서, 논리적 그룹핑
│
구조화된 OCR 결과
(바운딩 박스 + 텍스트 + 신뢰도)
모듈 아키텍처 역할 Text Detector RegNetY-8GF CNN 텍스트 영역 위치 검출 Text Recognizer Transformer 텍스트 전사 (가변 길이) Relational Model 글로벌 관계 모듈 읽기 순서, 레이아웃 그룹핑
성능 벤치마크
PaddleOCR 대비 내부 평가 데이터셋 기준:
지표 개선 Character Error Rate (CER) 19.5% 개선 Bag-of-word Error Rate 56.2% 개선 Multimodal Retrieval Recall@5 0.5~2.0% 개선
주요 기능
복잡한 문서 OCR : 스캔 문서, 영수증, 자연 장면 이미지
멀티라인/멀티블록 텍스트 처리
읽기 순서 분석 : 관계 모델로 자연스러운 읽기 순서 예측
테이블 콘텐츠 추출 (TEDS 지표 우수)
문서 검색 파이프라인 연동
입출력 스펙
항목 내용 입력 RGB 이미지 (PNG/JPEG), float32 / uint8 처리 단일/배치 모두 지원 출력 바운딩 박스 리스트 + 인식 텍스트 + 신뢰도 점수 언어 영어 (현재) GPU Ampere~Blackwell 아키텍처 런타임 TensorRT 또는 PyTorch
사용법
Python (Hugging Face)
from transformers import AutoProcessor, AutoModel
import torch
from PIL import Image
model = AutoModel.from_pretrained( "nvidia/nemotron-ocr-v1" )
processor = AutoProcessor.from_pretrained( "nvidia/nemotron-ocr-v1" )
image = Image.open( "document.png" )
inputs = processor( images = image, return_tensors = "pt" )
with torch.no_grad():
outputs = model( ** inputs)
# 결과: 바운딩 박스, 텍스트, 신뢰도
NVIDIA NIM API
import requests
response = requests.post(
"https://integrate.api.nvidia.com/v1/ocr" ,
headers = { "Authorization" : f "Bearer {API_KEY} " },
json = { "image" : base64_image}
)
result = response.json()
# result: [{"bbox": [...], "text": "...", "confidence": 0.98}]
관련 NVIDIA OCR/문서 모델
모델 특징 Nemotron OCR v1 전통적 OCR (검출+인식+레이아웃), 52.5M 파라미터, 경량 NemoRetriever OCR RAG/검색 파이프라인용 OCR, 문서 검색 특화 Llama Nemotron Nano VL VLM 기반, OCRBench v2 1위, Q&A/표/차트 이해 Nemotron-Parse 문서 파싱 특화, 구조화 데이터 추출
경쟁 모델 비교
모델 유형 특징 Nemotron OCR v1 하이브리드 CNN+Transformer NVIDIA, 프로덕션급, 52.5M PaddleOCR CNN 기반 오픈소스, 다국어, 가장 널리 사용 Tesseract LSTM 오픈소스, 100+ 언어, 느림 EasyOCR CRAFT+CRNN 파이썬 친화, 80+ 언어 Surya Transformer 오픈소스, 90+ 언어, PDF 특화 GOT-OCR 2.0 VLM 기반 수식/표/도식 포함 범용
훈련 데이터
공개 + 독점 OCR 데이터셋 혼합
다양한 문서 레이아웃 + 자연 장면 이미지
합성 이미지 + 실제 이미지 (다양한 노이즈/배경)
상업적 사용 가능 데이터만 필터링
관련 항목