개요
OpenDataLoader PDF는 한글과컴퓨터(한컴)가 공개한 오픈소스 PDF 데이터 추출 라이브러리입니다. RAG 파이프라인에 최적화된 AI-ready PDF 파서로, 2026년 3월 v2.0 발표 직후 GitHub 전체 오픈소스 트렌딩 1위 (7,000+ stars)를 달성했습니다.
- 개발: 한글과컴퓨터 (한컴)
- v2.0 공개: 2026.03
- 라이선스: Apache 2.0 (v1: MPL 2.0 → v2.0에서 변경)
- GitHub: https://github.com/opendataloader-project/opendataloader-pdf
- 공식 사이트: https://opendataloader.org
- GPU 필요 없음 (로컬 환경에서 실행)
핵심 특징
하이브리드 엔진
AI 방식 + 직접 추출 방식을 결합한 하이브리드 엔진:
| 모드 | 처리 방식 | 속도 | 특징 |
|---|---|---|---|
| Local (Heuristic) | Java 기반 로컬 처리 | 0.05s/page | 빠름, GPU 불필요 |
| Hybrid (AI) | 복잡한 페이지만 AI 백엔드 라우팅 | +AI 처리시간 | 최고 정확도 |
단순 페이지 → 로컬 처리 / 복잡한 페이지 → AI 라우팅으로 속도와 정확도 균형
외부 서버 전송 없음
로컬 환경에서만 작동 → 데이터 유출 없이 온프레미스 활용 가능
성능 벤치마크
오픈소스 PDF 추출 도구 중 전 카테고리 1위:
| 카테고리 | Hybrid 모드 | Heuristic 모드 |
|---|---|---|
| 읽기 순서 (Reading Order) | 94% | 91% |
| 표 추출 (Table Extraction) | 93% | 49% |
| 제목 감지 (Heading Detection) | 83% | 76% |
| 전체 종합 | 0.90 | 0.72 |
벤치마크 데이터 + 재현 가능한 코드 GitHub에 모두 공개
주요 기능
구조 분석
| 기능 | 설명 |
|---|---|
| 읽기 순서 | XY-Cut++ 알고리즘 — 멀티컬럼 레이아웃 자연스러운 순서 파싱 |
| 바운딩 박스 | 모든 추출 요소에 [x1, y1, x2, y2] 좌표 포함 → 원본 PDF 시각적 검증 |
| 표 처리 | 테두리 감지 + 텍스트 행/열 클러스터링, 병합 셀 처리 |
| 제목/단락/목록 | 폰트 정보·구조 분석으로 요소 유형 분류 |
무료 AI 애드온 4종 (기본 내장)
| 애드온 | 기능 |
|---|---|
| OCR | 이미지 기반 PDF 텍스트 인식, 80+ 언어, LLM 강화 옵션 |
| 표 추출 | 셀 병합 분석 포함, 복잡한 레이아웃 처리 |
| 수식 인식 | 수학 공식 추출 |
| 차트 분석 | 차트를 텍스트 형식으로 해석 |
출력 형식
{
"type": "table", // heading | paragraph | table | list | image | caption
"page": 3,
"bbox": [x1, y1, x2, y2],
"font": { "size": 12, "bold": false },
"text": "..."
}지원 출력: JSON / HTML / Markdown / PDF
생태계 연동
| 프레임워크 | 상태 |
|---|---|
| LangChain | 완료 (2025) |
| LangFlow | 2026년 예정 |
| LlamaIndex | 2026년 예정 |
| Gemini CLI | 2026년 예정 |
| Docling | 서드파티 호환 |
LangChain 연동: https://github.com/opendataloader-project/langchain-opendataloader-pdf
접근성 기능 (예정)
- PDF/UA 자동 태깅 파이프라인 (2026 Q2 출시 예정)
- AI가 문서 구조 분석 → 접근성 태그 자동 생성 (오픈소스 최초)
- PDF Association + veraPDF 검증기와 협업
- EAA, ADA, Section 508 컴플라이언스 지원
경쟁 도구 비교
| 도구 | 특징 | 라이선스 |
|---|---|---|
| OpenDataLoader PDF | 하이브리드, AI 애드온 4종, 표 93% | Apache 2.0 |
| Docling (IBM) | PDF/DOCX/HTML 멀티포맷, 표 구조 | MIT |
| PyMuPDF (fitz) | 빠른 텍스트 추출, 기본 구조 분석 | AGPL 3.0 |
| pdfplumber | 표/텍스트 좌표 추출, 파이썬 친화 | MIT |
| unstructured | 멀티포맷, API 서비스 | Apache 2.0 |
| Marker | PDF→Markdown, GPU 필요 | GPL 3.0 |
향후 로드맵
- 2026 하반기: 독자 문서 AI 기술 집약한 상용 AI 애드온 출시
- 2026 Q2: PDF/UA 접근성 자동 태깅 오픈소스 공개
- AI 프레임워크 연동 확대 (LangFlow, LlamaIndex, Gemini CLI)