**Omnilingual Machine Translation (OMT)**는 Meta AI가 개발한 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템. 기존 NLLB(No Language Left Behind) 프로젝트의 200개 언어 한계를 8배 이상 확장. 저자원·소수 언어까지 포괄하며, 1B~8B 파라미터 모델이 70B LLM과 동등하거나 우수한 성능 달성.
개발: Meta AI
기존 프로젝트: NLLB (200개 언어)
확장 규모: 1,600+ 개 언어
공개: 모델·데이터셋·평가 도구 무료 제공
등장 배경
기존 LLM 기반 번역의 한계:
✓ 영어·주요 언어 품질 우수
✗ 저자원 언어 생성 능력 부족
✗ 소수 언어 표현 불가능
세계 언어 수: 약 7,000개
NLLB 커버리지: 200개 (약 3%)
OMT 커버리지: 1,600개 (약 23%)
데이터 전략
3가지 기법 결합
기법
설명
MeDLEY bitext
수동 정제 병렬 데이터
역번역 (Backtranslation)
합성 데이터 생성
데이터 마이닝
공개 코퍼스에서 자동 추출
→ 소수 언어(long-tail languages)와 다양한 도메인·문체(register)까지 포괄
모델 구조: 두 가지 접근
OMT-LLaMA (decoder-only)
LLaMA3 기반
↓ 다국어 지속 사전학습 (multilingual continual pretraining)
↓ 검색 기반 번역 (retrieval-augmented translation)
↓
OMT-LLaMA
추론 시 적응성 강화
일관된 문장 생성 능력 ⭐
OMT-NLLB (encoder-decoder)
encoder-decoder 구조
↓ OmniSONAR (다국어 정렬 공간) 위에 구축
↓ 비병렬 데이터(non-parallel) 활용
↓ decoder-only 사전학습 데이터를 encoder-decoder 학습에 통합
↓
OMT-NLLB
저연산 환경 적합
1B~8B 파라미터로 70B 모델과 동등 성능
평가 체계
4가지 평가 도구 통합
도구
역할
BLASER 3
Reference-free 품질 평가 (참조 문장 불필요)
OmniTOX
번역 유해성(toxicity) 분류기
BOUQuET
수작업 구축 다국어 평가 데이터셋
Met-BOUQuET
대규모 다국어 품질 추정 확장 데이터셋
→ 공개 리더보드와 함께 제공, 연구자 자유 활용 가능
성능
영어 → 1,600개 언어 번역
모델
이해
생성
기존 모델
가능
저자원 언어에서 실패 多
OMT-LLaMA
우수
일관된 문장 생성 크게 확장 ⭐
모델 크기 효율성
70B 기준 LLM 성능
↑
↕ 동등 또는 우수
↓
1B~8B OMT 모델
→ 저연산 환경에서도 고품질 번역 가능성 입증
추가 품질 향상 방법
Fine-tuning: 특정 언어/도메인 적응
RAG (검색증강생성): 외부 지식 활용
핵심 성과
1. 1,600개 언어에 대한 일관된 문장 생성
2. 교차언어 전이(cross-lingual transfer) 성능 향상
3. "이해" 측면 문제 거의 해결
4. 저자원 언어의 표현 가능성 확보
5. 글로벌 언어 포용성(linguistic inclusivity) 확대
NLLB와의 비교
항목
NLLB
OMT
언어 수
200
1,600+
모델 구조
encoder-decoder만
LLaMA decoder-only + NLLB
평가 도구
BLEU, chrF
BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET
데이터
병렬 코퍼스 중심
+ 역번역 + 데이터 마이닝
저자원 언어
일부 지원
광범위 지원
시사점
1. 언어 격차 해소
- 그동안 디지털화에서 소외된 언어 6,800개 중 다수가 접근 가능
2. 컴퓨팅 효율성
- 1B~8B 모델로 70B 수준 → 엣지·모바일 번역 가능성
3. 평가 인프라 표준화
- BOUQuET 같은 다국어 평가 데이터셋의 공개 표준화
4. 오픈 리서치 모범 사례
- 모델·데이터·평가 도구 모두 공개
5. 문화·교육·접근성 영향
- 소수 민족 언어 보존 및 디지털 콘텐츠 접근 확대