개요

Deepgram은 AI 기반 음성 인식(STT) 플랫폼으로, 실시간 스트리밍 음성-텍스트 변환에 특화되어 있습니다. 자체 개발한 딥러닝 모델로 Whisper 대비 빠른 속도와 높은 정확도를 제공하며, 음성 에이전트 구축의 핵심 STT 컴포넌트로 널리 사용됩니다.

주요 모델

모델특징
Nova-2범용 STT, 36개 언어, 최고 정확도
Nova-3Nova-2 후속, 향상된 다국어 지원
Flux초저지연 스트리밍 STT, 음성 에이전트 최적화
Whisper CloudOpenAI Whisper를 Deepgram 인프라에서 실행

Flux — 음성 에이전트용

  • 음성 에이전트에 최적화된 초저지연 STT 모델
  • Endpointing 내장: 사용자 발화 종료를 빠르게 감지
  • VAD(Voice Activity Detection) 통합: 별도 VAD 없이 발화 구간 자동 감지
  • 스트리밍 WebSocket으로 실시간 전사
  • 일반 Nova 대비 지연 시간 대폭 감소

핵심 기능

기능설명
실시간 스트리밍WebSocket으로 실시간 음성→텍스트
배치 처리오디오 파일 업로드 후 전사
화자 분리 (Diarization)누가 말했는지 구분
언어 감지자동 언어 식별
단어 타임스탬프각 단어의 시작/끝 시간
스마트 포맷팅숫자, 날짜, 통화 자동 변환
키워드 부스팅특정 용어 인식률 향상 (제품명, 전문용어)
RedactionPII(개인정보) 자동 마스킹
Topic Detection대화 주제 자동 분류
Sentiment Analysis감정 분석

사용법

Python SDK

from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions
 
deepgram = DeepgramClient("API_KEY")
 
# 실시간 스트리밍 STT
connection = deepgram.listen.live.v("1")
 
options = LiveOptions(
    model="nova-2",
    language="ko",          # 한국어
    smart_format=True,
    interim_results=True,   # 중간 결과 스트리밍
    vad_events=True,        # VAD 이벤트
    endpointing=300,        # 300ms 무음 시 발화 종료
)
 
def on_message(self, result, **kwargs):
    transcript = result.channel.alternatives[0].transcript
    if transcript:
        print(f"인식: {transcript}")
 
connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(options)

REST API (배치)

curl -X POST "https://api.deepgram.com/v1/listen?model=nova-2&language=ko" \
  -H "Authorization: Token YOUR_API_KEY" \
  -H "Content-Type: audio/wav" \
  --data-binary @audio.wav

가격 (2026)

모델Pay-as-you-goGrowth
Nova-2$0.0043/분$0.0036/분
Flux$0.0060/분$0.0050/분
Whisper Cloud$0.0048/분$0.0042/분
  • 무료 티어: $200 크레딧 제공
  • 분 단위 과금

Deepgram vs Whisper vs Google STT

항목Deepgram Nova-2OpenAI WhisperGoogle Speech
배포클라우드 API오픈소스/API클라우드 API
지연 시간최저높음 (배치)중간
실시간O (WebSocket)X (API는 배치)O
정확도높음높음높음
한국어OOO (최강)
가격중간Whisper API $0.006/분$0.016/분
로컬 실행XO (오픈소스)X
VAD 내장OXO
커스텀키워드 부스팅파인튜닝 가능커스텀 모델

음성 에이전트에서의 역할

사용자 음성 → [Deepgram Flux: STT] → [LLM] → [TTS] → 응답 음성
              ├─ VAD (발화 감지)
              ├─ 스트리밍 전사
              └─ Endpointing (발화 종료 감지)
  • Twilio 와 연동: 전화 통화 음성을 Deepgram으로 스트리밍
  • Groq 와 조합: STT → 초저지연 LLM 추론
  • ElevenLabs와 조합: LLM 응답 → 자연스러운 음성 생성

관련 항목