OpenDataLoader PDF

개요

OpenDataLoader PDF는 한글과컴퓨터(한컴)가 공개한 오픈소스 PDF 데이터 추출 라이브러리입니다. RAG 파이프라인에 최적화된 AI-ready PDF 파서로, 2026년 3월 v2.0 발표 직후 GitHub 전체 오픈소스 트렌딩 1위 (7,000+ stars)를 달성했습니다.

개발: 한글과컴퓨터 (한컴)
v2.0 공개: 2026.03
라이선스: Apache 2.0 (v1: MPL 2.0 → v2.0에서 변경)
GitHub: https://github.com/opendataloader-project/opendataloader-pdf
공식 사이트: https://opendataloader.org
GPU 필요 없음 (로컬 환경에서 실행)

핵심 특징

하이브리드 엔진

AI 방식 + 직접 추출 방식을 결합한 하이브리드 엔진:

모드	처리 방식	속도	특징
Local (Heuristic)	Java 기반 로컬 처리	0.05s/page	빠름, GPU 불필요
Hybrid (AI)	복잡한 페이지만 AI 백엔드 라우팅	+AI 처리시간	최고 정확도

단순 페이지 → 로컬 처리 / 복잡한 페이지 → AI 라우팅으로 속도와 정확도 균형

외부 서버 전송 없음

로컬 환경에서만 작동 → 데이터 유출 없이 온프레미스 활용 가능

성능 벤치마크

오픈소스 PDF 추출 도구 중 전 카테고리 1위:

카테고리	Hybrid 모드	Heuristic 모드
읽기 순서 (Reading Order)	94%	91%
표 추출 (Table Extraction)	93%	49%
제목 감지 (Heading Detection)	83%	76%
전체 종합	0.90	0.72

벤치마크 데이터 + 재현 가능한 코드 GitHub에 모두 공개

주요 기능

구조 분석

기능	설명
읽기 순서	XY-Cut++ 알고리즘 — 멀티컬럼 레이아웃 자연스러운 순서 파싱
바운딩 박스	모든 추출 요소에 [x1, y1, x2, y2] 좌표 포함 → 원본 PDF 시각적 검증
표 처리	테두리 감지 + 텍스트 행/열 클러스터링, 병합 셀 처리
제목/단락/목록	폰트 정보·구조 분석으로 요소 유형 분류

무료 AI 애드온 4종 (기본 내장)

애드온	기능
OCR	이미지 기반 PDF 텍스트 인식, 80+ 언어, LLM 강화 옵션
표 추출	셀 병합 분석 포함, 복잡한 레이아웃 처리
수식 인식	수학 공식 추출
차트 분석	차트를 텍스트 형식으로 해석

출력 형식

{
  "type": "table",          // heading | paragraph | table | list | image | caption
  "page": 3,
  "bbox": [x1, y1, x2, y2],
  "font": { "size": 12, "bold": false },
  "text": "..."
}

지원 출력: JSON / HTML / Markdown / PDF

생태계 연동

프레임워크	상태
LangChain	완료 (2025)
LangFlow	2026년 예정
LlamaIndex	2026년 예정
Gemini CLI	2026년 예정
Docling	서드파티 호환

LangChain 연동: https://github.com/opendataloader-project/langchain-opendataloader-pdf

접근성 기능 (예정)

PDF/UA 자동 태깅 파이프라인 (2026 Q2 출시 예정)
AI가 문서 구조 분석 → 접근성 태그 자동 생성 (오픈소스 최초)
PDF Association + veraPDF 검증기와 협업
EAA, ADA, Section 508 컴플라이언스 지원

경쟁 도구 비교

도구	특징	라이선스
OpenDataLoader PDF	하이브리드, AI 애드온 4종, 표 93%	Apache 2.0
Docling (IBM)	PDF/DOCX/HTML 멀티포맷, 표 구조	MIT
PyMuPDF (fitz)	빠른 텍스트 추출, 기본 구조 분석	AGPL 3.0
pdfplumber	표/텍스트 좌표 추출, 파이썬 친화	MIT
unstructured	멀티포맷, API 서비스	Apache 2.0
Marker	PDF→Markdown, GPU 필요	GPL 3.0

향후 로드맵

2026 하반기: 독자 문서 AI 기술 집약한 상용 AI 애드온 출시
2026 Q2: PDF/UA 접근성 자동 태깅 오픈소스 공개
AI 프레임워크 연동 확대 (LangFlow, LlamaIndex, Gemini CLI)

Bigstones

Explorer