개요
Realtime API는 OpenAI의 저지연 멀티모달 API로, 음성-음성 상호작용과 실시간 음성 처리에 맞춰 설계되었습니다.
- WebRTC, WebSocket, SIP를 지원
- 브라우저/클라이언트에서는 WebRTC가 기본 권장 경로
- 서버 사이드나 전화 연결 같은 경우 WebSocket이나 SIP가 적합
한 줄 요약
“Realtime API는 말을 끝까지 기다리지 않고, 말하는 동안 바로 추론하고 응답하는 저지연 API다.”
핵심 특성
- 입력과 출력이 텍스트, 오디오, 이미지까지 확장된 멀티모달 인터페이스
- speech-to-speech 응답 지원
- 실시간 전사, 번역, 에이전트형 음성 상호작용에 적합
- 브라우저에서는 WebRTC 연결이 가장 자연스러운 선택
왜 중요한가
전통적인 음성 파이프라인은 보통 STT → LLM → TTS처럼 여러 단계를 거칩니다. Realtime API는 이 구조를 더 직접적인 저지연 흐름으로 바꿔, 대화의 끊김을 줄입니다.
즉, 핵심 가치는 모델 성능만이 아니라 상호작용 지연을 줄이는 제품화된 인터페이스에 있습니다.