음성 AI (Speech AI)

개요

음성 AI(Speech AI)는 사람의 음성을 이해하고 생성하는 AI 기술의 총칭입니다. 크게 STT(음성→텍스트), TTS(텍스트→음성), VAD(음성 활동 감지)로 구분되며, 이들을 조합하여 음성 에이전트, 음성 비서, 콜센터 자동화 등을 구현합니다.

핵심 기술

STT (Speech-to-Text)

항목	설명
정식 명칭	Speech-to-Text / ASR (Automatic Speech Recognition)
역할	음성 → 텍스트 변환
핵심 모델	Whisper (OpenAI), Conformer, RNN-T

주요 서비스:

서비스	특징
Deepgram	스트리밍 STT, Flux 모델, 최저 지연
OpenAI Whisper	오픈소스, 다국어, 로컬 실행 가능
Google Speech-to-Text	125+ 언어, V2 Chirp 모델
AWS Transcribe	실시간/배치, 의료 특화 모델
Azure Speech	커스텀 모델 학습 가능
AssemblyAI	요약/감정 분석 내장, Universal-2 모델

핵심 개념:

스트리밍 vs 배치: 실시간 변환 vs 파일 업로드 후 변환
WER (Word Error Rate): 인식 정확도 지표 (낮을수록 좋음)
Endpointing: 사용자 발화 종료 시점 감지
Diarization: 화자 구분 (누가 말했는지)
Code-switching: 다국어 혼합 인식 (한영 혼합 등)

TTS (Text-to-Speech)

항목	설명
정식 명칭	Text-to-Speech / Speech Synthesis
역할	텍스트 → 음성 생성
핵심 모델	VITS, Tacotron, FastSpeech, XTTS

주요 서비스:

서비스	특징
ElevenLabs	최고 품질, 음성 복제, 감정 표현, 32개 언어
OpenAI TTS	GPT-4o 기반, 자연스러운 대화체
Google Cloud TTS	WaveNet/Neural2, 220+ 음성, SSML
Amazon Polly	저비용, 뉴스캐스터 스타일, 실시간
Azure TTS	커스텀 음성, 감정/스타일 제어
Coqui TTS	오픈소스, XTTS v2, 로컬 실행
Silero	경량 오픈소스, 로컬 실행, 저자원
TADA (Text-Acoustic Dual Alignment)	오픈소스 LLM-TTS, 빠른 추론, 저환각

핵심 개념:

음성 복제 (Voice Cloning): 짧은 샘플로 특정 목소리 복제
SSML: Speech Synthesis Markup Language (발음/강세/속도 제어)
스트리밍 TTS: 텍스트 청크 단위로 즉시 음성 생성 (지연 최소화)
감정/스타일: 기쁨, 슬픔, 분노 등 감정 표현

VAD (Voice Activity Detection)

항목	설명
정식 명칭	Voice Activity Detection
역할	음성 신호에서 사람이 말하고 있는 구간 감지
용도	STT 전처리, 에코 제거, 대역폭 절약

주요 도구:

도구	특징
Silero VAD	가장 널리 사용, ONNX, 1MB 미만, 로컬
WebRTC VAD	Google 개발, C 기반, 초경량
py-webrtcvad	WebRTC VAD Python 래퍼
Deepgram	클라우드 STT에 VAD 내장

핵심 개념:

프레임 단위 판단: 10~30ms 오디오 프레임마다 음성 여부 판정
Endpointing: VAD + 무음 지속 시간 → 발화 종료 판단
턴테이킹: 음성 에이전트에서 사용자/AI 발화 교대 관리
에너지 기반 vs 모델 기반: 단순 볼륨 vs 딥러닝 분류

음성 에이전트 파이프라인

사용자 음성
    ↓
[VAD] 발화 감지
    ↓
[STT] 음성 → 텍스트  (Deepgram Flux, Whisper)
    ↓
[LLM] 텍스트 처리     (Groq, GPT-4o, Claude)
    ↓
[TTS] 텍스트 → 음성  (ElevenLabs, OpenAI TTS)
    ↓
응답 음성

지연 시간 구성

단계	일반적 지연	최적화 시
VAD + STT	200~500ms	~100ms (스트리밍)
LLM (TTFT)	200~1000ms	~100ms (Groq)
TTS	200~500ms	~100ms (스트리밍)
네트워크	50~200ms	~20ms (같은 리전)
합계	650~2200ms	~400ms

최적화 기법

스트리밍 파이프라인: STT→LLM→TTS를 순차 대기 대신 스트리밍 연결
TTS WebSocket 사전 연결: 연결 오버헤드 ~300ms 절약
같은 리전 배포: 서비스 간 네트워크 지연 최소화
인터럽트 처리: 사용자 재발화 시 LLM/TTS 즉시 취소
채움말(Filler words): “음…”, “네…” 으로 응답 대기 인식 완화

음성 에이전트 플랫폼

플랫폼	특징
Vapi	올인원 음성 에이전트 API, 빠른 시작
Bland AI	전화 에이전트 특화, 엔터프라이즈
Retell AI	음성 에이전트 빌더, 커스텀 LLM 연동
LiveKit	오픈소스 실시간 음성/비디오 인프라
Daily	WebRTC 기반 음성/비디오 API
Vocode	오픈소스 음성 에이전트 프레임워크

End-to-End 음성 모델 (2025~)

기존 STT→LLM→TTS 파이프라인을 하나의 모델로 통합하는 추세:

모델	개발	특징
GPT-4o Voice	OpenAI	네이티브 음성 입출력, 감정 표현
Gemini 2.0 Live	Google	멀티모달 실시간 음성
Moshi	Kyutai	오픈소스, 전이중(Full-duplex)
GLM-4-Voice	Zhipu	중국어 특화, 오픈소스

장점: 파이프라인 지연 제거, 자연스러운 감정/억양 단점: 감사 어려움(규제 산업), 세밀한 제어 제한

Bigstones

Explorer

음성 AI (Speech AI)

개요

핵심 기술

STT (Speech-to-Text)

TTS (Text-to-Speech)

VAD (Voice Activity Detection)

음성 에이전트 파이프라인

지연 시간 구성

최적화 기법

음성 에이전트 플랫폼

End-to-End 음성 모델 (2025~)

관련 항목

Graph View

Table of Contents

Backlinks