합성 데이터(Synthetic Data)는 실제 데이터 대신 AI가 생성한 학습 데이터입니다. LLM 학습에서 고품질 SFT/RLHF 데이터를 대규모로 생성하는 핵심 기법이며, 실제 데이터 수집의 비용·개인정보·저작권 문제를 우회합니다.
LLM 학습용 합성 데이터
지시 데이터 생성 기법
기법
개발
방식
Self-Instruct
Wang et al.
소수 시드 지시 → LLM이 새 지시-응답 쌍 생성
Evol-Instruct
WizardLM
기존 지시를 점진적으로 복잡화 (깊이/폭 진화)
SPIN
UCLA
자기 대국 — 자신의 이전 응답을 개선
Magpie
Allen AI
LLM 로그 확률에서 사용자 지시를 역추출
Distillation
범용
대형 모델(GPT-4) 응답으로 소형 모델 학습 데이터 생성
Persona-driven
MS Research
다양한 페르소나 설정으로 지시 다양성 확보
GLAN
MS Research
학문 분류 체계로 체계적 지시 생성
Self-Instruct 파이프라인
시드 지시 (175개)
↓
[LLM] 새 지시 생성
↓
[필터] 중복/저품질 제거
↓
[LLM] 응답 생성
↓
[필터] 품질 검증
↓
새 지시-응답 쌍 추가
↓ (반복)
대규모 SFT 데이터셋
Evol-Instruct (WizardLM)
단순 지시: "정렬 알고리즘 설명해줘"
↓ 깊이 진화 (Deepening)
복잡 지시: "퀵소트와 머지소트의 시간/공간 복잡도를
비교하고, 각각 최적인 상황을 실제 코드로
보여주며, 1000만 개 데이터셋에서의
벤치마크 결과도 포함해줘"
↓ 폭 진화 (Broadening)
관련 지시: "분산 환경에서의 정렬 알고리즘 최적화 방법은?"