개요

Nemotron OCR v1은 NVIDIA가 2025년 10월 출시한 프로덕션급 OCR 모델입니다. 텍스트 검출 + 인식 + 레이아웃 분석을 하나의 엔드투엔드 파이프라인으로 통합한 하이브리드 아키텍처입니다.


아키텍처

3개의 신경망 모듈을 통합한 하이브리드 구조:

입력 이미지
    │
[Text Detector]        RegNetY-8GF CNN 백본
텍스트 영역 검출         → 바운딩 박스 위치 추출
    │
[Text Recognizer]      Transformer 기반 시퀀스 인식기
텍스트 전사             → 가변 길이 단어/줄 처리
    │
[Relational Model]     멀티레이어 글로벌 관계 모듈
레이아웃 분석           → 읽기 순서, 논리적 그룹핑
    │
구조화된 OCR 결과
(바운딩 박스 + 텍스트 + 신뢰도)
모듈아키텍처역할
Text DetectorRegNetY-8GF CNN텍스트 영역 위치 검출
Text RecognizerTransformer텍스트 전사 (가변 길이)
Relational Model글로벌 관계 모듈읽기 순서, 레이아웃 그룹핑

성능 벤치마크

PaddleOCR 대비 내부 평가 데이터셋 기준:

지표개선
Character Error Rate (CER)19.5% 개선
Bag-of-word Error Rate56.2% 개선
Multimodal Retrieval Recall@50.5~2.0% 개선

주요 기능

  • 복잡한 문서 OCR: 스캔 문서, 영수증, 자연 장면 이미지
  • 멀티라인/멀티블록 텍스트 처리
  • 읽기 순서 분석: 관계 모델로 자연스러운 읽기 순서 예측
  • 테이블 콘텐츠 추출 (TEDS 지표 우수)
  • 문서 검색 파이프라인 연동

입출력 스펙

항목내용
입력RGB 이미지 (PNG/JPEG), float32 / uint8
처리단일/배치 모두 지원
출력바운딩 박스 리스트 + 인식 텍스트 + 신뢰도 점수
언어영어 (현재)
GPUAmpere~Blackwell 아키텍처
런타임TensorRT 또는 PyTorch

사용법

Python (Hugging Face)

from transformers import AutoProcessor, AutoModel
import torch
from PIL import Image
 
model = AutoModel.from_pretrained("nvidia/nemotron-ocr-v1")
processor = AutoProcessor.from_pretrained("nvidia/nemotron-ocr-v1")
 
image = Image.open("document.png")
inputs = processor(images=image, return_tensors="pt")
 
with torch.no_grad():
    outputs = model(**inputs)
 
# 결과: 바운딩 박스, 텍스트, 신뢰도

NVIDIA NIM API

import requests
 
response = requests.post(
    "https://integrate.api.nvidia.com/v1/ocr",
    headers={"Authorization": f"Bearer {API_KEY}"},
    json={"image": base64_image}
)
result = response.json()
# result: [{"bbox": [...], "text": "...", "confidence": 0.98}]

관련 NVIDIA OCR/문서 모델

모델특징
Nemotron OCR v1전통적 OCR (검출+인식+레이아웃), 52.5M 파라미터, 경량
NemoRetriever OCRRAG/검색 파이프라인용 OCR, 문서 검색 특화
Llama Nemotron Nano VLVLM 기반, OCRBench v2 1위, Q&A/표/차트 이해
Nemotron-Parse문서 파싱 특화, 구조화 데이터 추출

경쟁 모델 비교

모델유형특징
Nemotron OCR v1하이브리드 CNN+TransformerNVIDIA, 프로덕션급, 52.5M
PaddleOCRCNN 기반오픈소스, 다국어, 가장 널리 사용
TesseractLSTM오픈소스, 100+ 언어, 느림
EasyOCRCRAFT+CRNN파이썬 친화, 80+ 언어
SuryaTransformer오픈소스, 90+ 언어, PDF 특화
GOT-OCR 2.0VLM 기반수식/표/도식 포함 범용

훈련 데이터

  • 공개 + 독점 OCR 데이터셋 혼합
  • 다양한 문서 레이아웃 + 자연 장면 이미지
  • 합성 이미지 + 실제 이미지 (다양한 노이즈/배경)
  • 상업적 사용 가능 데이터만 필터링

관련 항목