개요
**TADA (Text-Acoustic Dual Alignment)**는 Hume AI가 2026년 3월 10일 오픈소스로 공개한 LLM 기반 TTS / 음성-언어 모델입니다. 핵심 아이디어는 텍스트 토큰과 음향 표현을 1:1로 정렬해, 기존 LLM 기반 TTS의 구조적 병목인 텍스트-오디오 토큰 비대칭을 줄이는 것입니다.
- 개발: Hume AI
- 공식 발표: https://www.hume.ai/blog/opensource-tada
- GitHub: https://github.com/HumeAI/tada
- Hugging Face: https://huggingface.co/HumeAI/tada-1b / https://huggingface.co/HumeAI/tada-3b-ml
- 논문: https://arxiv.org/abs/2602.23068
- 발표일: 2026-03-10
- 최신 확인 기준: 2026-04-20
한 줄 요약
“텍스트와 음성을 같은 속도로 움직이게 만들어, LLM 기반 TTS의 속도·신뢰성·컨텍스트 효율을 크게 끌어올린 구조”
문제: 기존 LLM TTS의 구조적 불균형
기존 LLM 기반 TTS는 보통 다음 문제를 안고 있습니다.
1초 음성
→ 텍스트: 약 2~3 토큰
→ 오디오: 약 12.5~25 프레임(또는 더 많은 토큰)즉, 모델 내부에서는 텍스트보다 오디오 쪽 시퀀스가 훨씬 길어집니다.
이 때문에:
- 더 긴 컨텍스트 윈도우 필요
- 메모리 사용량 증가
- 추론 속도 저하
- 단어 누락, 삽입, 환각 가능성 증가
기존 해결책은 보통:
- 오디오 프레임 수 줄이기
- 중간 semantic token 넣기
였지만, 이 경우:
- 표현력 저하
- 시스템 복잡도 증가
라는 트레이드오프가 생깁니다.
핵심 아이디어: 1:1 동기화
TADA는 이 문제를 “텍스트 1토큰 = 음향 벡터 1개” 구조로 풀려고 합니다.
텍스트 토큰
↕ 1:1 정렬
음향 벡터
↓
단일 동기화 스트림으로 LLM 통과구조적으로는:
- 입력 오디오에서 encoder + aligner가 텍스트 토큰마다 대응되는 음향 특징 추출
- LLM의 최종 hidden state를 조건으로 flow-matching head가 음향 특징 생성
- 이후 실제 오디오로 디코드
결과적으로 LLM 한 스텝이 텍스트 하나와 오디오 하나를 함께 다루는 구조가 됩니다.
Hume의 주장대로라면, 이 구조는 단어를 건너뛰거나 새 단어를 삽입하는 문제를 설계상 더 어렵게 만듭니다.
핵심 수치
| 항목 | 값 |
|---|---|
| RTF (Real-Time Factor) | 0.09 |
| 속도 | 유사 등급 LLM-TTS 대비 5배+ 빠름 |
| 토큰 처리량 | 초당 2~3 토큰 |
| 기존 접근 대비 오디오 토큰 | 보통 초당 12.5~75 토큰 |
| 환각 | LibriTTSR 1000+ 샘플에서 0건 |
| 컨텍스트 효율 | 2048 토큰에서 약 700초 오디오 |
| 기존 시스템 동급 비교 | 같은 2048 토큰에서 약 70초 |
즉, 속도, 신뢰성, 장문 생성 세 축에서 동시에 의미 있는 개선을 노린 모델입니다.
품질
Hume 블로그 기준 인간 평가:
| 평가 | 점수 |
|---|---|
| Speaker Similarity | 4.18 / 5.0 |
| Naturalness | 3.78 / 5.0 |
평가 데이터셋은 EARS (expressive, long-form speech)이며, Hume은 전체 2위 수준이라고 설명합니다.
즉, TADA의 포지션은:
- 절대 최고 음질만 노리는 모델이라기보다
- 속도 + 신뢰성 + 충분히 좋은 품질 쪽 균형형
에 가깝습니다.
공개 모델
1. TADA-1B
| 항목 | 내용 |
|---|---|
| 베이스 모델 | Llama 3.2 1B |
| 용도 | 영어 중심 |
| 모델명 | HumeAI/tada-1b |
2. TADA-3B-ML
| 항목 | 내용 |
|---|---|
| 베이스 모델 | Llama 3.2 3B |
| 용도 | 멀티링구얼 |
| 모델명 | HumeAI/tada-3b-ml |
공통 구성
- 공통 codec/encoder:
HumeAI/tada-codec - 데모 제공
- Python 패키지:
hume-tada
지원 언어
여기에는 시점 차이가 있습니다.
- 2026-03-10 Hume 블로그: 영어 + 추가 7개 언어
- 2026-04-20 GitHub README:
ar,ch,de,es,fr,it,ja,pl,pt지원 표기
즉, 최신 README 기준으로는 영어 외 다국어 aligner 지원 범위가 더 넓어져 보입니다.
비영어 프롬프트에서는 주의점이 있습니다:
- 내장 ASR은 영어 전용
- 비영어 reference audio는 정확한 transcript를 함께 넣는 것이 권장
- 그렇지 않으면 정렬 품질이 떨어질 수 있음
왜 빠른가
기존 TTS:
짧은 텍스트
→ 훨씬 긴 오디오 시퀀스 생성
→ 토큰 수 많음
→ 느리고 메모리 많이 씀TADA:
텍스트 토큰 수와 같은 길이의 동기화 스트림
→ 초당 2~3 토큰 수준 처리
→ 연산량과 지연 감소즉, “고정 프레임률 오디오 생성”을 버리고, 텍스트 토큰 중심 동적 길이 합성으로 바꾼 것이 핵심입니다.
왜 신뢰성이 높은가
TADA의 중요한 주장 중 하나는 content hallucination 감소입니다.
기존 TTS에서는:
- 단어 건너뜀
- 단어 반복
- 원문에 없는 단어 삽입
같은 문제가 생길 수 있습니다.
TADA는 텍스트와 오디오가 같은 단계로 생성되기 때문에, 이런 오류를 구조적으로 줄이려고 합니다.
Hume은 이를 두고:
- virtually zero content hallucinations
- LibriTTSR 1000+ 샘플에서 0건
이라고 설명합니다.
이 특성은 특히:
- 의료
- 금융
- 교육
- 규제 산업
처럼 발화 내용 정확성이 중요한 곳에서 의미가 큽니다.
온디바이스 가능성
Hume은 TADA를 다음 용도에 특히 밀고 있습니다.
1. 모바일 / 엣지 실행
- 클라우드 호출 없이 로컬 생성 가능성
- 더 낮은 지연
- 더 나은 프라이버시
2. 장문 낭독
- 오디오북
- 문서 낭독
- 내레이션
3. 음성 인터페이스
- 멀티턴 음성 대화
- 실시간 에이전트
- 디바이스 내 음성 UI
Hume의 모델 아키텍처 페이지는 Apple Silicon용 MLX 지원도 별도로 강조합니다.
한계
Hume이 직접 언급한 제한:
1. Speaker drift
- 긴 음성 생성에서 화자 특성이 조금씩 변할 수 있음
- 현재는 컨텍스트를 중간에 리셋하는 우회책 제안
2. Text-speech 동시 생성의 modality gap
- 음성과 텍스트를 함께 생성할 때
- 텍스트 전용 생성보다 언어 품질이 떨어질 수 있음
- 이를 줄이기 위해 Speech Free Guidance (SFG) 제안
3. 프리트레인 범위 제한
- 현재 공개 모델은 speech continuation 중심
- 어시스턴트형 use case에는 추가 파인튜닝 필요
4. 라이선스 주의
- 코드: MIT
- 모델 가중치: Llama 3.2 Community License
즉, “완전 MIT 모델”이 아니라 코드와 가중치 라이선스가 다릅니다.
왜 의미 있는가
- 오픈소스 TTS의 새로운 설계 방향
- 음성 토큰 압축이나 semantic token 대신 동기화 구조를 전면에 내세움
- 속도와 신뢰성 동시 추구
- 품질만이 아니라 실제 제품 배포에서 중요한 지연과 환각 문제를 함께 겨냥
- 장문 음성 생성에 유리
- 같은 컨텍스트 예산으로 훨씬 긴 오디오 처리 가능
- 온디바이스 음성 AI에 적합
- 모바일/엣지/Apple Silicon 배포 가능성 강조
포지셔닝
| 모델/도구 | 포지션 |
|---|---|
| TADA | 오픈소스, 빠른 LLM-TTS, 저환각, 장문/온디바이스 지향 |
| Silero | 더 경량, 전통적 로컬 TTS/VAD |
| Qwen3-TTS / MimikaStudio 계열 | 음성 복제·제품형 활용 |
| OpenAI / ElevenLabs 계열 | 상용 품질·API 중심 |
TADA는 특히 “생성 속도와 transcript reliability가 중요한 오픈소스 TTS” 라는 자리를 노리는 모델로 보입니다.