Deepgram

개요

Deepgram은 AI 기반 음성 인식(STT) 플랫폼으로, 실시간 스트리밍 음성-텍스트 변환에 특화되어 있습니다. 자체 개발한 딥러닝 모델로 Whisper 대비 빠른 속도와 높은 정확도를 제공하며, 음성 에이전트 구축의 핵심 STT 컴포넌트로 널리 사용됩니다.

설립: 2015년
본사: 미국 미시간
웹사이트: https://deepgram.com
GitHub: https://github.com/deepgram

주요 모델

모델	특징
Nova-2	범용 STT, 36개 언어, 최고 정확도
Nova-3	Nova-2 후속, 향상된 다국어 지원
Flux	초저지연 스트리밍 STT, 음성 에이전트 최적화
Whisper Cloud	OpenAI Whisper를 Deepgram 인프라에서 실행

Flux — 음성 에이전트용

음성 에이전트에 최적화된 초저지연 STT 모델
Endpointing 내장: 사용자 발화 종료를 빠르게 감지
VAD(Voice Activity Detection) 통합: 별도 VAD 없이 발화 구간 자동 감지
스트리밍 WebSocket으로 실시간 전사
일반 Nova 대비 지연 시간 대폭 감소

핵심 기능

기능	설명
실시간 스트리밍	WebSocket으로 실시간 음성→텍스트
배치 처리	오디오 파일 업로드 후 전사
화자 분리 (Diarization)	누가 말했는지 구분
언어 감지	자동 언어 식별
단어 타임스탬프	각 단어의 시작/끝 시간
스마트 포맷팅	숫자, 날짜, 통화 자동 변환
키워드 부스팅	특정 용어 인식률 향상 (제품명, 전문용어)
Redaction	PII(개인정보) 자동 마스킹
Topic Detection	대화 주제 자동 분류
Sentiment Analysis	감정 분석

사용법

Python SDK

from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions
 
deepgram = DeepgramClient("API_KEY")
 
# 실시간 스트리밍 STT
connection = deepgram.listen.live.v("1")
 
options = LiveOptions(
    model="nova-2",
    language="ko",          # 한국어
    smart_format=True,
    interim_results=True,   # 중간 결과 스트리밍
    vad_events=True,        # VAD 이벤트
    endpointing=300,        # 300ms 무음 시 발화 종료
)
 
def on_message(self, result, **kwargs):
    transcript = result.channel.alternatives[0].transcript
    if transcript:
        print(f"인식: {transcript}")
 
connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(options)

REST API (배치)

curl -X POST "https://api.deepgram.com/v1/listen?model=nova-2&language=ko" \
  -H "Authorization: Token YOUR_API_KEY" \
  -H "Content-Type: audio/wav" \
  --data-binary @audio.wav

가격 (2026)

모델	Pay-as-you-go	Growth
Nova-2	$0.0043/분	$0.0036/분
Flux	$0.0060/분	$0.0050/분
Whisper Cloud	$0.0048/분	$0.0042/분

무료 티어: $200 크레딧 제공
분 단위 과금

Deepgram vs Whisper vs Google STT

항목	Deepgram Nova-2	OpenAI Whisper	Google Speech
배포	클라우드 API	오픈소스/API	클라우드 API
지연 시간	최저	높음 (배치)	중간
실시간	O (WebSocket)	X (API는 배치)	O
정확도	높음	높음	높음
한국어	O	O	O (최강)
가격	중간	Whisper API $0.006/분	$0.016/분
로컬 실행	X	O (오픈소스)	X
VAD 내장	O	X	O
커스텀	키워드 부스팅	파인튜닝 가능	커스텀 모델

음성 에이전트에서의 역할

사용자 음성 → [Deepgram Flux: STT] → [LLM] → [TTS] → 응답 음성
              ├─ VAD (발화 감지)
              ├─ 스트리밍 전사
              └─ Endpointing (발화 종료 감지)

Twilio 와 연동: 전화 통화 음성을 Deepgram으로 스트리밍
Groq 와 조합: STT → 초저지연 LLM 추론
ElevenLabs와 조합: LLM 응답 → 자연스러운 음성 생성

Bigstones

Explorer

Deepgram

개요

주요 모델

Flux — 음성 에이전트용

핵심 기능

사용법

Python SDK

REST API (배치)

가격 (2026)

Deepgram vs Whisper vs Google STT

음성 에이전트에서의 역할

관련 항목

Graph View

Table of Contents

Backlinks