Omnilingual MT

개요

**Omnilingual Machine Translation (OMT)**는 Meta AI가 개발한 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템. 기존 NLLB(No Language Left Behind) 프로젝트의 200개 언어 한계를 8배 이상 확장. 저자원·소수 언어까지 포괄하며, 1B~8B 파라미터 모델이 70B LLM과 동등하거나 우수한 성능 달성.

개발: Meta AI
기존 프로젝트: NLLB (200개 언어)
확장 규모: 1,600+ 개 언어
공개: 모델·데이터셋·평가 도구 무료 제공

등장 배경

기존 LLM 기반 번역의 한계:
  ✓ 영어·주요 언어 품질 우수
  ✗ 저자원 언어 생성 능력 부족
  ✗ 소수 언어 표현 불가능

세계 언어 수: 약 7,000개
NLLB 커버리지: 200개 (약 3%)
OMT 커버리지: 1,600개 (약 23%)

데이터 전략

3가지 기법 결합

기법	설명
MeDLEY bitext	수동 정제 병렬 데이터
역번역 (Backtranslation)	합성 데이터 생성
데이터 마이닝	공개 코퍼스에서 자동 추출

→ 소수 언어(long-tail languages)와 다양한 도메인·문체(register)까지 포괄

모델 구조: 두 가지 접근

OMT-LLaMA (decoder-only)

LLaMA3 기반
  ↓ 다국어 지속 사전학습 (multilingual continual pretraining)
  ↓ 검색 기반 번역 (retrieval-augmented translation)
  ↓
OMT-LLaMA

추론 시 적응성 강화
일관된 문장 생성 능력 ⭐

OMT-NLLB (encoder-decoder)

encoder-decoder 구조
  ↓ OmniSONAR (다국어 정렬 공간) 위에 구축
  ↓ 비병렬 데이터(non-parallel) 활용
  ↓ decoder-only 사전학습 데이터를 encoder-decoder 학습에 통합
  ↓
OMT-NLLB

저연산 환경 적합
1B~8B 파라미터로 70B 모델과 동등 성능

평가 체계

4가지 평가 도구 통합

도구	역할
BLASER 3	Reference-free 품질 평가 (참조 문장 불필요)
OmniTOX	번역 유해성(toxicity) 분류기
BOUQuET	수작업 구축 다국어 평가 데이터셋
Met-BOUQuET	대규모 다국어 품질 추정 확장 데이터셋

→ 공개 리더보드와 함께 제공, 연구자 자유 활용 가능

성능

영어 → 1,600개 언어 번역

모델	이해	생성
기존 모델	가능	저자원 언어에서 실패 多
OMT-LLaMA	우수	일관된 문장 생성 크게 확장 ⭐

모델 크기 효율성

70B 기준 LLM 성능
        ↑
        ↕ 동등 또는 우수
        ↓
1B~8B OMT 모델

→ 저연산 환경에서도 고품질 번역 가능성 입증

추가 품질 향상 방법

Fine-tuning: 특정 언어/도메인 적응
RAG (검색증강생성): 외부 지식 활용

핵심 성과

1. 1,600개 언어에 대한 일관된 문장 생성
2. 교차언어 전이(cross-lingual transfer) 성능 향상
3. "이해" 측면 문제 거의 해결
4. 저자원 언어의 표현 가능성 확보
5. 글로벌 언어 포용성(linguistic inclusivity) 확대

NLLB와의 비교

항목	NLLB	OMT
언어 수	200	1,600+
모델 구조	encoder-decoder만	LLaMA decoder-only + NLLB
평가 도구	BLEU, chrF	BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET
데이터	병렬 코퍼스 중심	+ 역번역 + 데이터 마이닝
저자원 언어	일부 지원	광범위 지원

시사점

1. 언어 격차 해소
   - 그동안 디지털화에서 소외된 언어 6,800개 중 다수가 접근 가능

2. 컴퓨팅 효율성
   - 1B~8B 모델로 70B 수준 → 엣지·모바일 번역 가능성

3. 평가 인프라 표준화
   - BOUQuET 같은 다국어 평가 데이터셋의 공개 표준화

4. 오픈 리서치 모범 사례
   - 모델·데이터·평가 도구 모두 공개

5. 문화·교육·접근성 영향
   - 소수 민족 언어 보존 및 디지털 콘텐츠 접근 확대

활용 가능 영역

분야	활용
교육	모국어 교과서·콘텐츠 번역
의료	다국어 의료 정보 전달
재난 대응	긴급 정보 다국어 즉시 번역
문화 보존	소수 언어 디지털 아카이브
글로벌 서비스	1,600개 언어로 즉시 확장
연구	다국어 NLP 연구 기반

공개 리소스

BOUQuET / Met-BOUQuET 데이터셋 무료 공개
지속적 업데이트
공개 리더보드
Omnilinguality(전 언어 포괄성) 목표로 확장 진행 중

Bigstones

Explorer