개요

**TADA (Text-Acoustic Dual Alignment)**는 Hume AI가 2026년 3월 10일 오픈소스로 공개한 LLM 기반 TTS / 음성-언어 모델입니다. 핵심 아이디어는 텍스트 토큰과 음향 표현을 1:1로 정렬해, 기존 LLM 기반 TTS의 구조적 병목인 텍스트-오디오 토큰 비대칭을 줄이는 것입니다.


한 줄 요약

“텍스트와 음성을 같은 속도로 움직이게 만들어, LLM 기반 TTS의 속도·신뢰성·컨텍스트 효율을 크게 끌어올린 구조”


문제: 기존 LLM TTS의 구조적 불균형

기존 LLM 기반 TTS는 보통 다음 문제를 안고 있습니다.

1초 음성
  → 텍스트: 약 2~3 토큰
  → 오디오: 약 12.5~25 프레임(또는 더 많은 토큰)

즉, 모델 내부에서는 텍스트보다 오디오 쪽 시퀀스가 훨씬 길어집니다.

이 때문에:

  • 더 긴 컨텍스트 윈도우 필요
  • 메모리 사용량 증가
  • 추론 속도 저하
  • 단어 누락, 삽입, 환각 가능성 증가

기존 해결책은 보통:

  • 오디오 프레임 수 줄이기
  • 중간 semantic token 넣기

였지만, 이 경우:

  • 표현력 저하
  • 시스템 복잡도 증가

라는 트레이드오프가 생깁니다.


핵심 아이디어: 1:1 동기화

TADA는 이 문제를 “텍스트 1토큰 = 음향 벡터 1개” 구조로 풀려고 합니다.

텍스트 토큰
   ↕ 1:1 정렬
음향 벡터

단일 동기화 스트림으로 LLM 통과

구조적으로는:

  • 입력 오디오에서 encoder + aligner가 텍스트 토큰마다 대응되는 음향 특징 추출
  • LLM의 최종 hidden state를 조건으로 flow-matching head가 음향 특징 생성
  • 이후 실제 오디오로 디코드

결과적으로 LLM 한 스텝이 텍스트 하나와 오디오 하나를 함께 다루는 구조가 됩니다.

Hume의 주장대로라면, 이 구조는 단어를 건너뛰거나 새 단어를 삽입하는 문제를 설계상 더 어렵게 만듭니다.


핵심 수치

항목
RTF (Real-Time Factor)0.09
속도유사 등급 LLM-TTS 대비 5배+ 빠름
토큰 처리량초당 2~3 토큰
기존 접근 대비 오디오 토큰보통 초당 12.5~75 토큰
환각LibriTTSR 1000+ 샘플에서 0건
컨텍스트 효율2048 토큰에서 약 700초 오디오
기존 시스템 동급 비교같은 2048 토큰에서 약 70초

즉, 속도, 신뢰성, 장문 생성 세 축에서 동시에 의미 있는 개선을 노린 모델입니다.


품질

Hume 블로그 기준 인간 평가:

평가점수
Speaker Similarity4.18 / 5.0
Naturalness3.78 / 5.0

평가 데이터셋은 EARS (expressive, long-form speech)이며, Hume은 전체 2위 수준이라고 설명합니다.

즉, TADA의 포지션은:

  • 절대 최고 음질만 노리는 모델이라기보다
  • 속도 + 신뢰성 + 충분히 좋은 품질 쪽 균형형

에 가깝습니다.


공개 모델

1. TADA-1B

항목내용
베이스 모델Llama 3.2 1B
용도영어 중심
모델명HumeAI/tada-1b

2. TADA-3B-ML

항목내용
베이스 모델Llama 3.2 3B
용도멀티링구얼
모델명HumeAI/tada-3b-ml

공통 구성

  • 공통 codec/encoder: HumeAI/tada-codec
  • 데모 제공
  • Python 패키지: hume-tada

지원 언어

여기에는 시점 차이가 있습니다.

  • 2026-03-10 Hume 블로그: 영어 + 추가 7개 언어
  • 2026-04-20 GitHub README: ar, ch, de, es, fr, it, ja, pl, pt 지원 표기

즉, 최신 README 기준으로는 영어 외 다국어 aligner 지원 범위가 더 넓어져 보입니다.

비영어 프롬프트에서는 주의점이 있습니다:

  • 내장 ASR은 영어 전용
  • 비영어 reference audio는 정확한 transcript를 함께 넣는 것이 권장
  • 그렇지 않으면 정렬 품질이 떨어질 수 있음

왜 빠른가

기존 TTS:

짧은 텍스트
→ 훨씬 긴 오디오 시퀀스 생성
→ 토큰 수 많음
→ 느리고 메모리 많이 씀

TADA:

텍스트 토큰 수와 같은 길이의 동기화 스트림
→ 초당 2~3 토큰 수준 처리
→ 연산량과 지연 감소

즉, “고정 프레임률 오디오 생성”을 버리고, 텍스트 토큰 중심 동적 길이 합성으로 바꾼 것이 핵심입니다.


왜 신뢰성이 높은가

TADA의 중요한 주장 중 하나는 content hallucination 감소입니다.

기존 TTS에서는:

  • 단어 건너뜀
  • 단어 반복
  • 원문에 없는 단어 삽입

같은 문제가 생길 수 있습니다.

TADA는 텍스트와 오디오가 같은 단계로 생성되기 때문에, 이런 오류를 구조적으로 줄이려고 합니다.

Hume은 이를 두고:

  • virtually zero content hallucinations
  • LibriTTSR 1000+ 샘플에서 0건

이라고 설명합니다.

이 특성은 특히:

  • 의료
  • 금융
  • 교육
  • 규제 산업

처럼 발화 내용 정확성이 중요한 곳에서 의미가 큽니다.


온디바이스 가능성

Hume은 TADA를 다음 용도에 특히 밀고 있습니다.

1. 모바일 / 엣지 실행

  • 클라우드 호출 없이 로컬 생성 가능성
  • 더 낮은 지연
  • 더 나은 프라이버시

2. 장문 낭독

  • 오디오북
  • 문서 낭독
  • 내레이션

3. 음성 인터페이스

  • 멀티턴 음성 대화
  • 실시간 에이전트
  • 디바이스 내 음성 UI

Hume의 모델 아키텍처 페이지는 Apple Silicon용 MLX 지원도 별도로 강조합니다.


한계

Hume이 직접 언급한 제한:

1. Speaker drift

  • 긴 음성 생성에서 화자 특성이 조금씩 변할 수 있음
  • 현재는 컨텍스트를 중간에 리셋하는 우회책 제안

2. Text-speech 동시 생성의 modality gap

  • 음성과 텍스트를 함께 생성할 때
  • 텍스트 전용 생성보다 언어 품질이 떨어질 수 있음
  • 이를 줄이기 위해 Speech Free Guidance (SFG) 제안

3. 프리트레인 범위 제한

  • 현재 공개 모델은 speech continuation 중심
  • 어시스턴트형 use case에는 추가 파인튜닝 필요

4. 라이선스 주의

  • 코드: MIT
  • 모델 가중치: Llama 3.2 Community License

즉, “완전 MIT 모델”이 아니라 코드와 가중치 라이선스가 다릅니다.


왜 의미 있는가

  1. 오픈소스 TTS의 새로운 설계 방향
    • 음성 토큰 압축이나 semantic token 대신 동기화 구조를 전면에 내세움
  2. 속도와 신뢰성 동시 추구
    • 품질만이 아니라 실제 제품 배포에서 중요한 지연과 환각 문제를 함께 겨냥
  3. 장문 음성 생성에 유리
    • 같은 컨텍스트 예산으로 훨씬 긴 오디오 처리 가능
  4. 온디바이스 음성 AI에 적합
    • 모바일/엣지/Apple Silicon 배포 가능성 강조

포지셔닝

모델/도구포지션
TADA오픈소스, 빠른 LLM-TTS, 저환각, 장문/온디바이스 지향
Silero더 경량, 전통적 로컬 TTS/VAD
Qwen3-TTS / MimikaStudio 계열음성 복제·제품형 활용
OpenAI / ElevenLabs 계열상용 품질·API 중심

TADA는 특히 “생성 속도와 transcript reliability가 중요한 오픈소스 TTS” 라는 자리를 노리는 모델로 보입니다.


관련 항목