개요

OpenDataLoader PDF는 한글과컴퓨터(한컴)가 공개한 오픈소스 PDF 데이터 추출 라이브러리입니다. RAG 파이프라인에 최적화된 AI-ready PDF 파서로, 2026년 3월 v2.0 발표 직후 GitHub 전체 오픈소스 트렌딩 1위 (7,000+ stars)를 달성했습니다.


핵심 특징

하이브리드 엔진

AI 방식 + 직접 추출 방식을 결합한 하이브리드 엔진:

모드처리 방식속도특징
Local (Heuristic)Java 기반 로컬 처리0.05s/page빠름, GPU 불필요
Hybrid (AI)복잡한 페이지만 AI 백엔드 라우팅+AI 처리시간최고 정확도

단순 페이지 → 로컬 처리 / 복잡한 페이지 → AI 라우팅으로 속도와 정확도 균형

외부 서버 전송 없음

로컬 환경에서만 작동 → 데이터 유출 없이 온프레미스 활용 가능


성능 벤치마크

오픈소스 PDF 추출 도구 중 전 카테고리 1위:

카테고리Hybrid 모드Heuristic 모드
읽기 순서 (Reading Order)94%91%
표 추출 (Table Extraction)93%49%
제목 감지 (Heading Detection)83%76%
전체 종합0.900.72

벤치마크 데이터 + 재현 가능한 코드 GitHub에 모두 공개


주요 기능

구조 분석

기능설명
읽기 순서XY-Cut++ 알고리즘 — 멀티컬럼 레이아웃 자연스러운 순서 파싱
바운딩 박스모든 추출 요소에 [x1, y1, x2, y2] 좌표 포함 → 원본 PDF 시각적 검증
표 처리테두리 감지 + 텍스트 행/열 클러스터링, 병합 셀 처리
제목/단락/목록폰트 정보·구조 분석으로 요소 유형 분류

무료 AI 애드온 4종 (기본 내장)

애드온기능
OCR이미지 기반 PDF 텍스트 인식, 80+ 언어, LLM 강화 옵션
표 추출셀 병합 분석 포함, 복잡한 레이아웃 처리
수식 인식수학 공식 추출
차트 분석차트를 텍스트 형식으로 해석

출력 형식

{
  "type": "table",          // heading | paragraph | table | list | image | caption
  "page": 3,
  "bbox": [x1, y1, x2, y2],
  "font": { "size": 12, "bold": false },
  "text": "..."
}

지원 출력: JSON / HTML / Markdown / PDF


생태계 연동

프레임워크상태
LangChain완료 (2025)
LangFlow2026년 예정
LlamaIndex2026년 예정
Gemini CLI2026년 예정
Docling서드파티 호환

LangChain 연동: https://github.com/opendataloader-project/langchain-opendataloader-pdf


접근성 기능 (예정)

  • PDF/UA 자동 태깅 파이프라인 (2026 Q2 출시 예정)
  • AI가 문서 구조 분석 → 접근성 태그 자동 생성 (오픈소스 최초)
  • PDF Association + veraPDF 검증기와 협업
  • EAA, ADA, Section 508 컴플라이언스 지원

경쟁 도구 비교

도구특징라이선스
OpenDataLoader PDF하이브리드, AI 애드온 4종, 표 93%Apache 2.0
Docling (IBM)PDF/DOCX/HTML 멀티포맷, 표 구조MIT
PyMuPDF (fitz)빠른 텍스트 추출, 기본 구조 분석AGPL 3.0
pdfplumber표/텍스트 좌표 추출, 파이썬 친화MIT
unstructured멀티포맷, API 서비스Apache 2.0
MarkerPDF→Markdown, GPU 필요GPL 3.0

향후 로드맵

  • 2026 하반기: 독자 문서 AI 기술 집약한 상용 AI 애드온 출시
  • 2026 Q2: PDF/UA 접근성 자동 태깅 오픈소스 공개
  • AI 프레임워크 연동 확대 (LangFlow, LlamaIndex, Gemini CLI)

관련 항목