개요

LLM 데이터 엔지니어링은 대규모 언어 모델의 학습 데이터를 수집·정제·구축·관리하는 분야입니다. “데이터 품질이 모델 성능의 한계를 결정”하며, 모델 아키텍처만큼 데이터 파이프라인이 중요합니다.

학습 데이터 유형

단계데이터 유형규모설명
사전학습 (Pretraining)웹 크롤, 서적, 코드, 위키수조 토큰언어 이해의 기반
SFT (Supervised Fine-Tuning)지시-응답 쌍수만~수십만지시 따르기 능력 부여
RLHF/DPO선호도 데이터 (좋은/나쁜 응답 쌍)수만~수십만인간 선호에 맞는 정렬
도메인 특화법률, 의료, 금융 문서가변전문 분야 지식 주입

사전학습 데이터

주요 데이터셋

데이터셋규모특징
Common Crawl수백 PB웹 크롤 원본, 노이즈 많음
C4~800GBCommon Crawl 정제본 (T5 학습용)
RefinedWeb~5T 토큰Falcon 학습용, 고품질 필터링
RedPajama~1.2T 토큰LLaMA 재현용 오픈 데이터
The Stack v2~900B 토큰코드 데이터 (600+ 언어)
ROOTS~1.6T 토큰BLOOM 학습용, 다국어
Dolma~3T 토큰OLMo 학습용, 완전 공개
FineWeb~15T 토큰HuggingFace, Common Crawl 최고 정제본

데이터 정제 파이프라인

웹 크롤 (Common Crawl)
    ↓
[1] 언어 필터링 (fastText 언어 감지)
    ↓
[2] 품질 필터링
    ├─ 퍼플렉시티 기반 (KenLM)
    ├─ 문서 길이/반복 비율
    ├─ 특수문자/URL 비율
    └─ 분류기 기반 (좋은 문서 vs 나쁜 문서)
    ↓
[3] 중복 제거 (Deduplication)
    ├─ Exact: 해시 기반 완전 일치
    ├─ Near-dup: MinHash + LSH
    └─ Fuzzy: SimHash
    ↓
[4] PII 제거 (개인정보)
    ├─ 이메일, 전화번호, 주민번호
    └─ NER 기반 이름/주소 마스킹
    ↓
[5] 독성/유해 콘텐츠 필터링
    ├─ 분류기 (Jigsaw, Perspective API)
    └─ 키워드 블랙리스트
    ↓
정제된 사전학습 코퍼스

핵심 기법

기법설명
중복 제거MinHash + LSH로 유사 문서 제거 → 학습 효율 향상
품질 점수KenLM 퍼플렉시티, 위키피디아 유사도 등으로 문서 품질 평가
데이터 혼합 (Data Mix)웹:코드:서적:과학 비율 조절 → 모델 능력 밸런스
커리큘럼 학습쉬운 데이터 → 어려운 데이터 순서로 학습
토큰화BPE (Byte Pair Encoding), SentencePiece, tiktoken

SFT (지시 파인튜닝) 데이터

주요 데이터셋

데이터셋크기특징
OpenAssistant (OASST)~160K인간 작성, 다국어, 대화 트리
ShareGPT~90KChatGPT 대화 수집
Alpaca52KGPT-4로 생성 (Self-Instruct)
Dolly15KDatabricks 직원 직접 작성
FLAN~15MGoogle, 다양한 NLP 태스크 통합
UltraChat~1.5M다중 턴 대화, 자동 생성

합성 데이터 생성 기법

기법설명
Self-Instruct소수 시드 → LLM이 지시-응답 쌍 자동 생성
Evol-Instruct기존 지시를 점진적으로 복잡하게 진화 (WizardLM)
SPIN자기 대국(Self-Play)으로 데이터 품질 향상
MagpieLLM 로그 확률에서 지시 자동 추출
Distillation대형 모델의 응답으로 소형 모델 학습 데이터 생성

→ 상세: 합성 데이터 (Synthetic Data)


RLHF / DPO 데이터

선호도 데이터 구조

프롬프트: "서울에서 맛집 추천해줘"

응답 A (선택): "강남역 근처 OO식당은..."  ← 선호
응답 B (거부): "맛집은 많습니다."          ← 비선호
데이터셋크기특징
Anthropic HH-RLHF~170K도움됨/무해함 이중 기준
OpenAI WebGPT~20K웹 검색 기반 비교
UltraFeedback~64KGPT-4가 점수 매긴 선호 데이터
Nectar~180K다양한 모델 응답 비교

멀티모달 데이터

유형데이터셋용도
이미지-텍스트LAION-5B, CC12M, DataComp비전-언어 사전학습
이미지 지시LLaVA-Instruct, ShareGPT4V비전 지시 튜닝
비디오-텍스트WebVid, InternVid비디오 이해
오디오-텍스트LibriSpeech, GigaSpeech음성 모델

정렬 도구: CLIP (이미지-텍스트 유사도), BLIP-2 (캡션 생성)


데이터 품질 관리

품질이 중요한 이유

데이터 양데이터 품질결과
많음낮음노이즈 학습, 환각 증가
적음높음소량으로도 우수한 성능 (LIMA 논문: 1K 고품질 > 50K 저품질)
많음높음최적

품질 평가 지표

지표설명
퍼플렉시티언어 모델 기준 자연스러움
다양성지시/응답의 다양성 (임베딩 클러스터링)
정확성사실 관계 정확도
독성유해/편향 콘텐츠 비율
중복률동일/유사 데이터 비율

도구

도구역할
DVC데이터 버전 관리
Ray분산 데이터 처리
Spark대규모 데이터 처리
datatroveHuggingFace 데이터 처리 파이프라인
text-dedup텍스트 중복 제거
fastText언어 감지
KenLMn-gram 언어 모델 (품질 필터링)
Argilla데이터 라벨링/어노테이션
Label Studio범용 어노테이션 플랫폼

관련 항목