개요
Deepgram은 AI 기반 음성 인식(STT) 플랫폼으로, 실시간 스트리밍 음성-텍스트 변환에 특화되어 있습니다. 자체 개발한 딥러닝 모델로 Whisper 대비 빠른 속도와 높은 정확도를 제공하며, 음성 에이전트 구축의 핵심 STT 컴포넌트로 널리 사용됩니다.
주요 모델
| 모델 | 특징 |
|---|
| Nova-2 | 범용 STT, 36개 언어, 최고 정확도 |
| Nova-3 | Nova-2 후속, 향상된 다국어 지원 |
| Flux | 초저지연 스트리밍 STT, 음성 에이전트 최적화 |
| Whisper Cloud | OpenAI Whisper를 Deepgram 인프라에서 실행 |
Flux — 음성 에이전트용
- 음성 에이전트에 최적화된 초저지연 STT 모델
- Endpointing 내장: 사용자 발화 종료를 빠르게 감지
- VAD(Voice Activity Detection) 통합: 별도 VAD 없이 발화 구간 자동 감지
- 스트리밍 WebSocket으로 실시간 전사
- 일반 Nova 대비 지연 시간 대폭 감소
핵심 기능
| 기능 | 설명 |
|---|
| 실시간 스트리밍 | WebSocket으로 실시간 음성→텍스트 |
| 배치 처리 | 오디오 파일 업로드 후 전사 |
| 화자 분리 (Diarization) | 누가 말했는지 구분 |
| 언어 감지 | 자동 언어 식별 |
| 단어 타임스탬프 | 각 단어의 시작/끝 시간 |
| 스마트 포맷팅 | 숫자, 날짜, 통화 자동 변환 |
| 키워드 부스팅 | 특정 용어 인식률 향상 (제품명, 전문용어) |
| Redaction | PII(개인정보) 자동 마스킹 |
| Topic Detection | 대화 주제 자동 분류 |
| Sentiment Analysis | 감정 분석 |
사용법
Python SDK
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions
deepgram = DeepgramClient("API_KEY")
# 실시간 스트리밍 STT
connection = deepgram.listen.live.v("1")
options = LiveOptions(
model="nova-2",
language="ko", # 한국어
smart_format=True,
interim_results=True, # 중간 결과 스트리밍
vad_events=True, # VAD 이벤트
endpointing=300, # 300ms 무음 시 발화 종료
)
def on_message(self, result, **kwargs):
transcript = result.channel.alternatives[0].transcript
if transcript:
print(f"인식: {transcript}")
connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(options)
REST API (배치)
curl -X POST "https://api.deepgram.com/v1/listen?model=nova-2&language=ko" \
-H "Authorization: Token YOUR_API_KEY" \
-H "Content-Type: audio/wav" \
--data-binary @audio.wav
가격 (2026)
| 모델 | Pay-as-you-go | Growth |
|---|
| Nova-2 | $0.0043/분 | $0.0036/분 |
| Flux | $0.0060/분 | $0.0050/분 |
| Whisper Cloud | $0.0048/분 | $0.0042/분 |
- 무료 티어: $200 크레딧 제공
- 분 단위 과금
Deepgram vs Whisper vs Google STT
| 항목 | Deepgram Nova-2 | OpenAI Whisper | Google Speech |
|---|
| 배포 | 클라우드 API | 오픈소스/API | 클라우드 API |
| 지연 시간 | 최저 | 높음 (배치) | 중간 |
| 실시간 | O (WebSocket) | X (API는 배치) | O |
| 정확도 | 높음 | 높음 | 높음 |
| 한국어 | O | O | O (최강) |
| 가격 | 중간 | Whisper API $0.006/분 | $0.016/분 |
| 로컬 실행 | X | O (오픈소스) | X |
| VAD 내장 | O | X | O |
| 커스텀 | 키워드 부스팅 | 파인튜닝 가능 | 커스텀 모델 |
음성 에이전트에서의 역할
사용자 음성 → [Deepgram Flux: STT] → [LLM] → [TTS] → 응답 음성
├─ VAD (발화 감지)
├─ 스트리밍 전사
└─ Endpointing (발화 종료 감지)
- Twilio 와 연동: 전화 통화 음성을 Deepgram으로 스트리밍
- Groq 와 조합: STT → 초저지연 LLM 추론
- ElevenLabs와 조합: LLM 응답 → 자연스러운 음성 생성
관련 항목