개요

합성 데이터(Synthetic Data)는 실제 데이터 대신 AI가 생성한 학습 데이터입니다. LLM 학습에서 고품질 SFT/RLHF 데이터를 대규모로 생성하는 핵심 기법이며, 실제 데이터 수집의 비용·개인정보·저작권 문제를 우회합니다.

LLM 학습용 합성 데이터

지시 데이터 생성 기법

기법개발방식
Self-InstructWang et al.소수 시드 지시 → LLM이 새 지시-응답 쌍 생성
Evol-InstructWizardLM기존 지시를 점진적으로 복잡화 (깊이/폭 진화)
SPINUCLA자기 대국 — 자신의 이전 응답을 개선
MagpieAllen AILLM 로그 확률에서 사용자 지시를 역추출
Distillation범용대형 모델(GPT-4) 응답으로 소형 모델 학습 데이터 생성
Persona-drivenMS Research다양한 페르소나 설정으로 지시 다양성 확보
GLANMS Research학문 분류 체계로 체계적 지시 생성

Self-Instruct 파이프라인

시드 지시 (175개)
    ↓
[LLM] 새 지시 생성
    ↓
[필터] 중복/저품질 제거
    ↓
[LLM] 응답 생성
    ↓
[필터] 품질 검증
    ↓
새 지시-응답 쌍 추가
    ↓ (반복)
대규모 SFT 데이터셋

Evol-Instruct (WizardLM)

단순 지시: "정렬 알고리즘 설명해줘"
    ↓ 깊이 진화 (Deepening)
복잡 지시: "퀵소트와 머지소트의 시간/공간 복잡도를
            비교하고, 각각 최적인 상황을 실제 코드로
            보여주며, 1000만 개 데이터셋에서의
            벤치마크 결과도 포함해줘"
    ↓ 폭 진화 (Broadening)
관련 지시: "분산 환경에서의 정렬 알고리즘 최적화 방법은?"

합성 데이터 유형

텍스트

용도기법예시
SFT 데이터Self-Instruct, Evol-InstructAlpaca, WizardLM 데이터
수학 추론단계별 풀이 생성, 검증MetaMath, GSM8K 증강
코딩코드 생성 + 테스트 검증Code Alpaca, OSS-Instruct
선호도 데이터다중 모델 응답 비교, AI 판정UltraFeedback, Nectar
대화 데이터멀티턴 대화 시뮬레이션UltraChat

이미지

용도기법
학습 데이터 증강Diffusion 모델로 변형/생성
캡션 생성BLIP-2, LLaVA로 이미지→텍스트
프라이버시실제 얼굴 대신 합성 얼굴

표 형식 (Tabular)

용도기법
데이터 증강GAN, VAE, Diffusion 기반
프라이버시차분 프라이버시 적용 합성
도구Gretel, SDV, CTGAN

품질 관리

합성 데이터의 함정

문제설명
모델 붕괴 (Model Collapse)합성 데이터로만 학습 반복 → 품질 저하
다양성 부족생성 모델의 편향이 증폭
환각 전파잘못된 사실이 합성 데이터에 포함
라이선스GPT-4 출력으로 경쟁 모델 학습 → 이용약관 위반 가능

품질 보장 방법

방법설명
검증기 (Verifier)수학: 정답 확인, 코드: 테스트 실행
AI 판정 (LLM-as-Judge)GPT-4로 응답 품질 점수 매기기
다양성 필터임베딩 클러스터링으로 중복/유사 제거
인간 검수샘플링 후 인간 어노테이터 검증
실제 데이터 혼합합성 100%가 아닌 실제+합성 혼합

대표 합성 데이터셋

데이터셋생성 방법크기용도
AlpacaGPT-3.5 Self-Instruct52KSFT
WizardLMEvol-Instruct250K복잡한 SFT
UltraChatGPT-3.5 대화 시뮬레이션1.5M멀티턴 대화
UltraFeedbackGPT-4 판정64KDPO/RLHF
MetaMath수학 문제 재작성395K수학 추론
MagpieLlama 로그 확률 역추출4MSFT
CosmopediaMixtral 생성 교과서25M사전학습
Phi-1 교과서GPT-4 생성 교과서-Microsoft Phi 사전학습

도구

도구역할
distilabelHuggingFace, 합성 데이터 생성 프레임워크
Gretel표 형식 합성 데이터 플랫폼
SDVSynthetic Data Vault, 오픈소스
Argilla데이터 라벨링 + 합성 데이터 검수
NVIDIA Nemotron합성 데이터 생성 특화 LLM

관련 항목