개요

음성 AI(Speech AI)는 사람의 음성을 이해하고 생성하는 AI 기술의 총칭입니다. 크게 STT(음성→텍스트), TTS(텍스트→음성), VAD(음성 활동 감지)로 구분되며, 이들을 조합하여 음성 에이전트, 음성 비서, 콜센터 자동화 등을 구현합니다.

핵심 기술

STT (Speech-to-Text)

항목설명
정식 명칭Speech-to-Text / ASR (Automatic Speech Recognition)
역할음성 → 텍스트 변환
핵심 모델Whisper (OpenAI), Conformer, RNN-T

주요 서비스:

서비스특징
Deepgram스트리밍 STT, Flux 모델, 최저 지연
OpenAI Whisper오픈소스, 다국어, 로컬 실행 가능
Google Speech-to-Text125+ 언어, V2 Chirp 모델
AWS Transcribe실시간/배치, 의료 특화 모델
Azure Speech커스텀 모델 학습 가능
AssemblyAI요약/감정 분석 내장, Universal-2 모델

핵심 개념:

  • 스트리밍 vs 배치: 실시간 변환 vs 파일 업로드 후 변환
  • WER (Word Error Rate): 인식 정확도 지표 (낮을수록 좋음)
  • Endpointing: 사용자 발화 종료 시점 감지
  • Diarization: 화자 구분 (누가 말했는지)
  • Code-switching: 다국어 혼합 인식 (한영 혼합 등)

TTS (Text-to-Speech)

항목설명
정식 명칭Text-to-Speech / Speech Synthesis
역할텍스트 → 음성 생성
핵심 모델VITS, Tacotron, FastSpeech, XTTS

주요 서비스:

서비스특징
ElevenLabs최고 품질, 음성 복제, 감정 표현, 32개 언어
OpenAI TTSGPT-4o 기반, 자연스러운 대화체
Google Cloud TTSWaveNet/Neural2, 220+ 음성, SSML
Amazon Polly저비용, 뉴스캐스터 스타일, 실시간
Azure TTS커스텀 음성, 감정/스타일 제어
Coqui TTS오픈소스, XTTS v2, 로컬 실행
Silero경량 오픈소스, 로컬 실행, 저자원
TADA (Text-Acoustic Dual Alignment)오픈소스 LLM-TTS, 빠른 추론, 저환각

핵심 개념:

  • 음성 복제 (Voice Cloning): 짧은 샘플로 특정 목소리 복제
  • SSML: Speech Synthesis Markup Language (발음/강세/속도 제어)
  • 스트리밍 TTS: 텍스트 청크 단위로 즉시 음성 생성 (지연 최소화)
  • 감정/스타일: 기쁨, 슬픔, 분노 등 감정 표현

VAD (Voice Activity Detection)

항목설명
정식 명칭Voice Activity Detection
역할음성 신호에서 사람이 말하고 있는 구간 감지
용도STT 전처리, 에코 제거, 대역폭 절약

주요 도구:

도구특징
Silero VAD가장 널리 사용, ONNX, 1MB 미만, 로컬
WebRTC VADGoogle 개발, C 기반, 초경량
py-webrtcvadWebRTC VAD Python 래퍼
Deepgram클라우드 STT에 VAD 내장

핵심 개념:

  • 프레임 단위 판단: 10~30ms 오디오 프레임마다 음성 여부 판정
  • Endpointing: VAD + 무음 지속 시간 → 발화 종료 판단
  • 턴테이킹: 음성 에이전트에서 사용자/AI 발화 교대 관리
  • 에너지 기반 vs 모델 기반: 단순 볼륨 vs 딥러닝 분류

음성 에이전트 파이프라인

사용자 음성
    ↓
[VAD] 발화 감지
    ↓
[STT] 음성 → 텍스트  (Deepgram Flux, Whisper)
    ↓
[LLM] 텍스트 처리     (Groq, GPT-4o, Claude)
    ↓
[TTS] 텍스트 → 음성  (ElevenLabs, OpenAI TTS)
    ↓
응답 음성

지연 시간 구성

단계일반적 지연최적화 시
VAD + STT200~500ms~100ms (스트리밍)
LLM (TTFT)200~1000ms~100ms (Groq)
TTS200~500ms~100ms (스트리밍)
네트워크50~200ms~20ms (같은 리전)
합계650~2200ms~400ms

최적화 기법

  • 스트리밍 파이프라인: STT→LLM→TTS를 순차 대기 대신 스트리밍 연결
  • TTS WebSocket 사전 연결: 연결 오버헤드 ~300ms 절약
  • 같은 리전 배포: 서비스 간 네트워크 지연 최소화
  • 인터럽트 처리: 사용자 재발화 시 LLM/TTS 즉시 취소
  • 채움말(Filler words): “음…”, “네…” 으로 응답 대기 인식 완화

음성 에이전트 플랫폼

플랫폼특징
Vapi올인원 음성 에이전트 API, 빠른 시작
Bland AI전화 에이전트 특화, 엔터프라이즈
Retell AI음성 에이전트 빌더, 커스텀 LLM 연동
LiveKit오픈소스 실시간 음성/비디오 인프라
DailyWebRTC 기반 음성/비디오 API
Vocode오픈소스 음성 에이전트 프레임워크

End-to-End 음성 모델 (2025~)

기존 STT→LLM→TTS 파이프라인을 하나의 모델로 통합하는 추세:

모델개발특징
GPT-4o VoiceOpenAI네이티브 음성 입출력, 감정 표현
Gemini 2.0 LiveGoogle멀티모달 실시간 음성
MoshiKyutai오픈소스, 전이중(Full-duplex)
GLM-4-VoiceZhipu중국어 특화, 오픈소스

장점: 파이프라인 지연 제거, 자연스러운 감정/억양 단점: 감사 어려움(규제 산업), 세밀한 제어 제한

관련 항목