개요

**Omnilingual Machine Translation (OMT)**는 Meta AI가 개발한 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템. 기존 NLLB(No Language Left Behind) 프로젝트의 200개 언어 한계를 8배 이상 확장. 저자원·소수 언어까지 포괄하며, 1B~8B 파라미터 모델이 70B LLM과 동등하거나 우수한 성능 달성.

  • 개발: Meta AI
  • 기존 프로젝트: NLLB (200개 언어)
  • 확장 규모: 1,600+ 개 언어
  • 공개: 모델·데이터셋·평가 도구 무료 제공

등장 배경

기존 LLM 기반 번역의 한계:
  ✓ 영어·주요 언어 품질 우수
  ✗ 저자원 언어 생성 능력 부족
  ✗ 소수 언어 표현 불가능

세계 언어 수: 약 7,000개
NLLB 커버리지: 200개 (약 3%)
OMT 커버리지: 1,600개 (약 23%)

데이터 전략

3가지 기법 결합

기법설명
MeDLEY bitext수동 정제 병렬 데이터
역번역 (Backtranslation)합성 데이터 생성
데이터 마이닝공개 코퍼스에서 자동 추출

→ 소수 언어(long-tail languages)와 다양한 도메인·문체(register)까지 포괄


모델 구조: 두 가지 접근

OMT-LLaMA (decoder-only)

LLaMA3 기반
  ↓ 다국어 지속 사전학습 (multilingual continual pretraining)
  ↓ 검색 기반 번역 (retrieval-augmented translation)
  ↓
OMT-LLaMA
  • 추론 시 적응성 강화
  • 일관된 문장 생성 능력 ⭐

OMT-NLLB (encoder-decoder)

encoder-decoder 구조
  ↓ OmniSONAR (다국어 정렬 공간) 위에 구축
  ↓ 비병렬 데이터(non-parallel) 활용
  ↓ decoder-only 사전학습 데이터를 encoder-decoder 학습에 통합
  ↓
OMT-NLLB
  • 저연산 환경 적합
  • 1B~8B 파라미터로 70B 모델과 동등 성능

평가 체계

4가지 평가 도구 통합

도구역할
BLASER 3Reference-free 품질 평가 (참조 문장 불필요)
OmniTOX번역 유해성(toxicity) 분류기
BOUQuET수작업 구축 다국어 평가 데이터셋
Met-BOUQuET대규모 다국어 품질 추정 확장 데이터셋

→ 공개 리더보드와 함께 제공, 연구자 자유 활용 가능


성능

영어 → 1,600개 언어 번역

모델이해생성
기존 모델가능저자원 언어에서 실패 多
OMT-LLaMA우수일관된 문장 생성 크게 확장

모델 크기 효율성

70B 기준 LLM 성능
        ↑
        ↕ 동등 또는 우수
        ↓
1B~8B OMT 모델

저연산 환경에서도 고품질 번역 가능성 입증

추가 품질 향상 방법

  • Fine-tuning: 특정 언어/도메인 적응
  • RAG (검색증강생성): 외부 지식 활용

핵심 성과

1. 1,600개 언어에 대한 일관된 문장 생성
2. 교차언어 전이(cross-lingual transfer) 성능 향상
3. "이해" 측면 문제 거의 해결
4. 저자원 언어의 표현 가능성 확보
5. 글로벌 언어 포용성(linguistic inclusivity) 확대

NLLB와의 비교

항목NLLBOMT
언어 수2001,600+
모델 구조encoder-decoder만LLaMA decoder-only + NLLB
평가 도구BLEU, chrFBLASER 3, OmniTOX, BOUQuET, Met-BOUQuET
데이터병렬 코퍼스 중심+ 역번역 + 데이터 마이닝
저자원 언어일부 지원광범위 지원

시사점

1. 언어 격차 해소
   - 그동안 디지털화에서 소외된 언어 6,800개 중 다수가 접근 가능

2. 컴퓨팅 효율성
   - 1B~8B 모델로 70B 수준 → 엣지·모바일 번역 가능성

3. 평가 인프라 표준화
   - BOUQuET 같은 다국어 평가 데이터셋의 공개 표준화

4. 오픈 리서치 모범 사례
   - 모델·데이터·평가 도구 모두 공개

5. 문화·교육·접근성 영향
   - 소수 민족 언어 보존 및 디지털 콘텐츠 접근 확대

활용 가능 영역

분야활용
교육모국어 교과서·콘텐츠 번역
의료다국어 의료 정보 전달
재난 대응긴급 정보 다국어 즉시 번역
문화 보존소수 언어 디지털 아카이브
글로벌 서비스1,600개 언어로 즉시 확장
연구다국어 NLP 연구 기반

공개 리소스

  • BOUQuET / Met-BOUQuET 데이터셋 무료 공개
  • 지속적 업데이트
  • 공개 리더보드
  • Omnilinguality(전 언어 포괄성) 목표로 확장 진행 중

관련 항목