TADA (Text-Acoustic Dual Alignment)

개요

**TADA (Text-Acoustic Dual Alignment)**는 Hume AI가 2026년 3월 10일 오픈소스로 공개한 LLM 기반 TTS / 음성-언어 모델입니다. 핵심 아이디어는 텍스트 토큰과 음향 표현을 1:1로 정렬해, 기존 LLM 기반 TTS의 구조적 병목인 텍스트-오디오 토큰 비대칭을 줄이는 것입니다.

개발: Hume AI
공식 발표: https://www.hume.ai/blog/opensource-tada
GitHub: https://github.com/HumeAI/tada
Hugging Face: https://huggingface.co/HumeAI/tada-1b / https://huggingface.co/HumeAI/tada-3b-ml
논문: https://arxiv.org/abs/2602.23068
발표일: 2026-03-10
최신 확인 기준: 2026-04-20

한 줄 요약

“텍스트와 음성을 같은 속도로 움직이게 만들어, LLM 기반 TTS의 속도·신뢰성·컨텍스트 효율을 크게 끌어올린 구조”

문제: 기존 LLM TTS의 구조적 불균형

기존 LLM 기반 TTS는 보통 다음 문제를 안고 있습니다.

1초 음성
  → 텍스트: 약 2~3 토큰
  → 오디오: 약 12.5~25 프레임(또는 더 많은 토큰)

즉, 모델 내부에서는 텍스트보다 오디오 쪽 시퀀스가 훨씬 길어집니다.

이 때문에:

더 긴 컨텍스트 윈도우 필요
메모리 사용량 증가
추론 속도 저하
단어 누락, 삽입, 환각 가능성 증가

기존 해결책은 보통:

오디오 프레임 수 줄이기
중간 semantic token 넣기

였지만, 이 경우:

표현력 저하
시스템 복잡도 증가

라는 트레이드오프가 생깁니다.

핵심 아이디어: 1:1 동기화

TADA는 이 문제를 “텍스트 1토큰 = 음향 벡터 1개” 구조로 풀려고 합니다.

텍스트 토큰
   ↕ 1:1 정렬
음향 벡터
   ↓
단일 동기화 스트림으로 LLM 통과

구조적으로는:

입력 오디오에서 encoder + aligner가 텍스트 토큰마다 대응되는 음향 특징 추출
LLM의 최종 hidden state를 조건으로 flow-matching head가 음향 특징 생성
이후 실제 오디오로 디코드

결과적으로 LLM 한 스텝이 텍스트 하나와 오디오 하나를 함께 다루는 구조가 됩니다.

Hume의 주장대로라면, 이 구조는 단어를 건너뛰거나 새 단어를 삽입하는 문제를 설계상 더 어렵게 만듭니다.

핵심 수치

항목	값
RTF (Real-Time Factor)	0.09
속도	유사 등급 LLM-TTS 대비 5배+ 빠름
토큰 처리량	초당 2~3 토큰
기존 접근 대비 오디오 토큰	보통 초당 12.5~75 토큰
환각	LibriTTSR 1000+ 샘플에서 0건
컨텍스트 효율	2048 토큰에서 약 700초 오디오
기존 시스템 동급 비교	같은 2048 토큰에서 약 70초

즉, 속도, 신뢰성, 장문 생성 세 축에서 동시에 의미 있는 개선을 노린 모델입니다.

품질

Hume 블로그 기준 인간 평가:

평가	점수
Speaker Similarity	4.18 / 5.0
Naturalness	3.78 / 5.0

평가 데이터셋은 EARS (expressive, long-form speech)이며, Hume은 전체 2위 수준이라고 설명합니다.

즉, TADA의 포지션은:

절대 최고 음질만 노리는 모델이라기보다
속도 + 신뢰성 + 충분히 좋은 품질 쪽 균형형

에 가깝습니다.

공개 모델

1. TADA-1B

항목	내용
베이스 모델	Llama 3.2 1B
용도	영어 중심
모델명	`HumeAI/tada-1b`

2. TADA-3B-ML

항목	내용
베이스 모델	Llama 3.2 3B
용도	멀티링구얼
모델명	`HumeAI/tada-3b-ml`

공통 구성

공통 codec/encoder: HumeAI/tada-codec
데모 제공
Python 패키지: hume-tada

지원 언어

여기에는 시점 차이가 있습니다.

2026-03-10 Hume 블로그: 영어 + 추가 7개 언어
2026-04-20 GitHub README: ar, ch, de, es, fr, it, ja, pl, pt 지원 표기

즉, 최신 README 기준으로는 영어 외 다국어 aligner 지원 범위가 더 넓어져 보입니다.

비영어 프롬프트에서는 주의점이 있습니다:

내장 ASR은 영어 전용
비영어 reference audio는 정확한 transcript를 함께 넣는 것이 권장
그렇지 않으면 정렬 품질이 떨어질 수 있음

왜 빠른가

기존 TTS:

짧은 텍스트
→ 훨씬 긴 오디오 시퀀스 생성
→ 토큰 수 많음
→ 느리고 메모리 많이 씀

TADA:

텍스트 토큰 수와 같은 길이의 동기화 스트림
→ 초당 2~3 토큰 수준 처리
→ 연산량과 지연 감소

즉, “고정 프레임률 오디오 생성”을 버리고, 텍스트 토큰 중심 동적 길이 합성으로 바꾼 것이 핵심입니다.

왜 신뢰성이 높은가

TADA의 중요한 주장 중 하나는 content hallucination 감소입니다.

기존 TTS에서는:

단어 건너뜀
단어 반복
원문에 없는 단어 삽입

같은 문제가 생길 수 있습니다.

TADA는 텍스트와 오디오가 같은 단계로 생성되기 때문에, 이런 오류를 구조적으로 줄이려고 합니다.

Hume은 이를 두고:

virtually zero content hallucinations
LibriTTSR 1000+ 샘플에서 0건

이라고 설명합니다.

이 특성은 특히:

의료
금융
교육
규제 산업

처럼 발화 내용 정확성이 중요한 곳에서 의미가 큽니다.

온디바이스 가능성

Hume은 TADA를 다음 용도에 특히 밀고 있습니다.

1. 모바일 / 엣지 실행

클라우드 호출 없이 로컬 생성 가능성
더 낮은 지연
더 나은 프라이버시

2. 장문 낭독

오디오북
문서 낭독
내레이션

3. 음성 인터페이스

멀티턴 음성 대화
실시간 에이전트
디바이스 내 음성 UI

Hume의 모델 아키텍처 페이지는 Apple Silicon용 MLX 지원도 별도로 강조합니다.

한계

Hume이 직접 언급한 제한:

1. Speaker drift

긴 음성 생성에서 화자 특성이 조금씩 변할 수 있음
현재는 컨텍스트를 중간에 리셋하는 우회책 제안

2. Text-speech 동시 생성의 modality gap

음성과 텍스트를 함께 생성할 때
텍스트 전용 생성보다 언어 품질이 떨어질 수 있음
이를 줄이기 위해 Speech Free Guidance (SFG) 제안

3. 프리트레인 범위 제한

현재 공개 모델은 speech continuation 중심
어시스턴트형 use case에는 추가 파인튜닝 필요

4. 라이선스 주의

코드: MIT
모델 가중치: Llama 3.2 Community License

즉, “완전 MIT 모델”이 아니라 코드와 가중치 라이선스가 다릅니다.

왜 의미 있는가

오픈소스 TTS의 새로운 설계 방향
- 음성 토큰 압축이나 semantic token 대신 동기화 구조를 전면에 내세움
속도와 신뢰성 동시 추구
- 품질만이 아니라 실제 제품 배포에서 중요한 지연과 환각 문제를 함께 겨냥
장문 음성 생성에 유리
- 같은 컨텍스트 예산으로 훨씬 긴 오디오 처리 가능
온디바이스 음성 AI에 적합
- 모바일/엣지/Apple Silicon 배포 가능성 강조

포지셔닝

모델/도구	포지션
TADA	오픈소스, 빠른 LLM-TTS, 저환각, 장문/온디바이스 지향
Silero	더 경량, 전통적 로컬 TTS/VAD
Qwen3-TTS / MimikaStudio 계열	음성 복제·제품형 활용
OpenAI / ElevenLabs 계열	상용 품질·API 중심

TADA는 특히 “생성 속도와 transcript reliability가 중요한 오픈소스 TTS” 라는 자리를 노리는 모델로 보입니다.

Bigstones

Explorer