개요
음성 AI(Speech AI)는 사람의 음성을 이해하고 생성하는 AI 기술의 총칭입니다. 크게 STT(음성→텍스트), TTS(텍스트→음성), VAD(음성 활동 감지)로 구분되며, 이들을 조합하여 음성 에이전트, 음성 비서, 콜센터 자동화 등을 구현합니다.
핵심 기술
STT (Speech-to-Text)
| 항목 | 설명 |
|---|---|
| 정식 명칭 | Speech-to-Text / ASR (Automatic Speech Recognition) |
| 역할 | 음성 → 텍스트 변환 |
| 핵심 모델 | Whisper (OpenAI), Conformer, RNN-T |
주요 서비스:
| 서비스 | 특징 |
|---|---|
| Deepgram | 스트리밍 STT, Flux 모델, 최저 지연 |
| OpenAI Whisper | 오픈소스, 다국어, 로컬 실행 가능 |
| Google Speech-to-Text | 125+ 언어, V2 Chirp 모델 |
| AWS Transcribe | 실시간/배치, 의료 특화 모델 |
| Azure Speech | 커스텀 모델 학습 가능 |
| AssemblyAI | 요약/감정 분석 내장, Universal-2 모델 |
핵심 개념:
- 스트리밍 vs 배치: 실시간 변환 vs 파일 업로드 후 변환
- WER (Word Error Rate): 인식 정확도 지표 (낮을수록 좋음)
- Endpointing: 사용자 발화 종료 시점 감지
- Diarization: 화자 구분 (누가 말했는지)
- Code-switching: 다국어 혼합 인식 (한영 혼합 등)
TTS (Text-to-Speech)
| 항목 | 설명 |
|---|---|
| 정식 명칭 | Text-to-Speech / Speech Synthesis |
| 역할 | 텍스트 → 음성 생성 |
| 핵심 모델 | VITS, Tacotron, FastSpeech, XTTS |
주요 서비스:
| 서비스 | 특징 |
|---|---|
| ElevenLabs | 최고 품질, 음성 복제, 감정 표현, 32개 언어 |
| OpenAI TTS | GPT-4o 기반, 자연스러운 대화체 |
| Google Cloud TTS | WaveNet/Neural2, 220+ 음성, SSML |
| Amazon Polly | 저비용, 뉴스캐스터 스타일, 실시간 |
| Azure TTS | 커스텀 음성, 감정/스타일 제어 |
| Coqui TTS | 오픈소스, XTTS v2, 로컬 실행 |
| Silero | 경량 오픈소스, 로컬 실행, 저자원 |
| TADA (Text-Acoustic Dual Alignment) | 오픈소스 LLM-TTS, 빠른 추론, 저환각 |
핵심 개념:
- 음성 복제 (Voice Cloning): 짧은 샘플로 특정 목소리 복제
- SSML: Speech Synthesis Markup Language (발음/강세/속도 제어)
- 스트리밍 TTS: 텍스트 청크 단위로 즉시 음성 생성 (지연 최소화)
- 감정/스타일: 기쁨, 슬픔, 분노 등 감정 표현
VAD (Voice Activity Detection)
| 항목 | 설명 |
|---|---|
| 정식 명칭 | Voice Activity Detection |
| 역할 | 음성 신호에서 사람이 말하고 있는 구간 감지 |
| 용도 | STT 전처리, 에코 제거, 대역폭 절약 |
주요 도구:
| 도구 | 특징 |
|---|---|
| Silero VAD | 가장 널리 사용, ONNX, 1MB 미만, 로컬 |
| WebRTC VAD | Google 개발, C 기반, 초경량 |
| py-webrtcvad | WebRTC VAD Python 래퍼 |
| Deepgram | 클라우드 STT에 VAD 내장 |
핵심 개념:
- 프레임 단위 판단: 10~30ms 오디오 프레임마다 음성 여부 판정
- Endpointing: VAD + 무음 지속 시간 → 발화 종료 판단
- 턴테이킹: 음성 에이전트에서 사용자/AI 발화 교대 관리
- 에너지 기반 vs 모델 기반: 단순 볼륨 vs 딥러닝 분류
음성 에이전트 파이프라인
사용자 음성
↓
[VAD] 발화 감지
↓
[STT] 음성 → 텍스트 (Deepgram Flux, Whisper)
↓
[LLM] 텍스트 처리 (Groq, GPT-4o, Claude)
↓
[TTS] 텍스트 → 음성 (ElevenLabs, OpenAI TTS)
↓
응답 음성
지연 시간 구성
| 단계 | 일반적 지연 | 최적화 시 |
|---|---|---|
| VAD + STT | 200~500ms | ~100ms (스트리밍) |
| LLM (TTFT) | 200~1000ms | ~100ms (Groq) |
| TTS | 200~500ms | ~100ms (스트리밍) |
| 네트워크 | 50~200ms | ~20ms (같은 리전) |
| 합계 | 650~2200ms | ~400ms |
최적화 기법
- 스트리밍 파이프라인: STT→LLM→TTS를 순차 대기 대신 스트리밍 연결
- TTS WebSocket 사전 연결: 연결 오버헤드 ~300ms 절약
- 같은 리전 배포: 서비스 간 네트워크 지연 최소화
- 인터럽트 처리: 사용자 재발화 시 LLM/TTS 즉시 취소
- 채움말(Filler words): “음…”, “네…” 으로 응답 대기 인식 완화
음성 에이전트 플랫폼
| 플랫폼 | 특징 |
|---|---|
| Vapi | 올인원 음성 에이전트 API, 빠른 시작 |
| Bland AI | 전화 에이전트 특화, 엔터프라이즈 |
| Retell AI | 음성 에이전트 빌더, 커스텀 LLM 연동 |
| LiveKit | 오픈소스 실시간 음성/비디오 인프라 |
| Daily | WebRTC 기반 음성/비디오 API |
| Vocode | 오픈소스 음성 에이전트 프레임워크 |
End-to-End 음성 모델 (2025~)
기존 STT→LLM→TTS 파이프라인을 하나의 모델로 통합하는 추세:
| 모델 | 개발 | 특징 |
|---|---|---|
| GPT-4o Voice | OpenAI | 네이티브 음성 입출력, 감정 표현 |
| Gemini 2.0 Live | 멀티모달 실시간 음성 | |
| Moshi | Kyutai | 오픈소스, 전이중(Full-duplex) |
| GLM-4-Voice | Zhipu | 중국어 특화, 오픈소스 |
장점: 파이프라인 지연 제거, 자연스러운 감정/억양 단점: 감사 어려움(규제 산업), 세밀한 제어 제한
관련 항목
- Deepgram — STT 플랫폼
- Silero — 경량 VAD/TTS
- TADA (Text-Acoustic Dual Alignment) — 빠른 오픈소스 LLM-TTS
- Twilio — 통신 API 플랫폼
- AI 에이전트 프레임워크
- Large Language Models (LLMs)
- Groq — 초저지연 LLM 추론
- 실시간 음성 인프라
- OpenAI 저지연 음성 AI 인프라