합성 데이터 (Synthetic Data)

개요

합성 데이터(Synthetic Data)는 실제 데이터 대신 AI가 생성한 학습 데이터입니다. LLM 학습에서 고품질 SFT/RLHF 데이터를 대규모로 생성하는 핵심 기법이며, 실제 데이터 수집의 비용·개인정보·저작권 문제를 우회합니다.

LLM 학습용 합성 데이터

지시 데이터 생성 기법

기법	개발	방식
Self-Instruct	Wang et al.	소수 시드 지시 → LLM이 새 지시-응답 쌍 생성
Evol-Instruct	WizardLM	기존 지시를 점진적으로 복잡화 (깊이/폭 진화)
SPIN	UCLA	자기 대국 — 자신의 이전 응답을 개선
Magpie	Allen AI	LLM 로그 확률에서 사용자 지시를 역추출
Distillation	범용	대형 모델(GPT-4) 응답으로 소형 모델 학습 데이터 생성
Persona-driven	MS Research	다양한 페르소나 설정으로 지시 다양성 확보
GLAN	MS Research	학문 분류 체계로 체계적 지시 생성

Self-Instruct 파이프라인

시드 지시 (175개)
    ↓
[LLM] 새 지시 생성
    ↓
[필터] 중복/저품질 제거
    ↓
[LLM] 응답 생성
    ↓
[필터] 품질 검증
    ↓
새 지시-응답 쌍 추가
    ↓ (반복)
대규모 SFT 데이터셋

Evol-Instruct (WizardLM)

단순 지시: "정렬 알고리즘 설명해줘"
    ↓ 깊이 진화 (Deepening)
복잡 지시: "퀵소트와 머지소트의 시간/공간 복잡도를
            비교하고, 각각 최적인 상황을 실제 코드로
            보여주며, 1000만 개 데이터셋에서의
            벤치마크 결과도 포함해줘"
    ↓ 폭 진화 (Broadening)
관련 지시: "분산 환경에서의 정렬 알고리즘 최적화 방법은?"

합성 데이터 유형

텍스트

용도	기법	예시
SFT 데이터	Self-Instruct, Evol-Instruct	Alpaca, WizardLM 데이터
수학 추론	단계별 풀이 생성, 검증	MetaMath, GSM8K 증강
코딩	코드 생성 + 테스트 검증	Code Alpaca, OSS-Instruct
선호도 데이터	다중 모델 응답 비교, AI 판정	UltraFeedback, Nectar
대화 데이터	멀티턴 대화 시뮬레이션	UltraChat

이미지

용도	기법
학습 데이터 증강	Diffusion 모델로 변형/생성
캡션 생성	BLIP-2, LLaVA로 이미지→텍스트
프라이버시	실제 얼굴 대신 합성 얼굴

표 형식 (Tabular)

용도	기법
데이터 증강	GAN, VAE, Diffusion 기반
프라이버시	차분 프라이버시 적용 합성
도구	Gretel, SDV, CTGAN

품질 관리

합성 데이터의 함정

문제	설명
모델 붕괴 (Model Collapse)	합성 데이터로만 학습 반복 → 품질 저하
다양성 부족	생성 모델의 편향이 증폭
환각 전파	잘못된 사실이 합성 데이터에 포함
라이선스	GPT-4 출력으로 경쟁 모델 학습 → 이용약관 위반 가능

품질 보장 방법

방법	설명
검증기 (Verifier)	수학: 정답 확인, 코드: 테스트 실행
AI 판정 (LLM-as-Judge)	GPT-4로 응답 품질 점수 매기기
다양성 필터	임베딩 클러스터링으로 중복/유사 제거
인간 검수	샘플링 후 인간 어노테이터 검증
실제 데이터 혼합	합성 100%가 아닌 실제+합성 혼합

대표 합성 데이터셋

데이터셋	생성 방법	크기	용도
Alpaca	GPT-3.5 Self-Instruct	52K	SFT
WizardLM	Evol-Instruct	250K	복잡한 SFT
UltraChat	GPT-3.5 대화 시뮬레이션	1.5M	멀티턴 대화
UltraFeedback	GPT-4 판정	64K	DPO/RLHF
MetaMath	수학 문제 재작성	395K	수학 추론
Magpie	Llama 로그 확률 역추출	4M	SFT
Cosmopedia	Mixtral 생성 교과서	25M	사전학습
Phi-1 교과서	GPT-4 생성 교과서	-	Microsoft Phi 사전학습

도구

도구	역할
distilabel	HuggingFace, 합성 데이터 생성 프레임워크
Gretel	표 형식 합성 데이터 플랫폼
SDV	Synthetic Data Vault, 오픈소스
Argilla	데이터 라벨링 + 합성 데이터 검수
NVIDIA Nemotron	합성 데이터 생성 특화 LLM

Bigstones

Explorer

합성 데이터 (Synthetic Data)

개요

LLM 학습용 합성 데이터

지시 데이터 생성 기법

Self-Instruct 파이프라인

Evol-Instruct (WizardLM)

합성 데이터 유형

텍스트

이미지

표 형식 (Tabular)

품질 관리

합성 데이터의 함정

품질 보장 방법

대표 합성 데이터셋

도구

관련 항목

Graph View

Table of Contents

Backlinks