GPT-Realtime-2
핵심 요약
GPT-Realtime-2는 OpenAI의 실시간 음성 상호작용용 추론 모델이다. 공식 모델 문서 기준으로 텍스트·오디오·이미지를 입력으로 받고, 텍스트·오디오를 출력하며, Realtime API에서 사용할 수 있다.
이 모델의 의미는 음성 AI가 단순한 STT → LLM → TTS 파이프라인을 넘어, 음성 대화 중 추론·도구 호출·중단 처리·맥락 유지를 동시에 수행하는 방향으로 이동했다는 점이다.
OpenAI가 함께 제시한 실시간 오디오 모델군은 세 가지 축으로 볼 수 있다.
- GPT-Realtime-2: 추론과 도구 호출을 수행하는 실시간 음성 모델.
- GPT-Realtime-Translate: 실시간 다국어 음성 번역 모델.
- GPT-Realtime-Whisper: 저지연 스트리밍 전사 모델.
GPT-Realtime-2
GPT-Realtime-2는 실시간 voice agent 워크플로우를 겨냥한다. 기존 음성 모델이 빠른 턴테이킹과 자연스러운 목소리에 집중했다면, Realtime-2는 복잡한 요청을 이해하고 대화 중 도구를 사용하며 사용자의 수정·중단을 처리하는 데 초점을 둔다.
공식 모델 문서에서 확인되는 주요 특성은 다음과 같다.
- 128,000 토큰 컨텍스트 윈도우.
- 32,000 최대 출력 토큰.
- 텍스트, 오디오, 이미지 입력.
- 텍스트, 오디오 출력.
- Function calling 지원.
- Realtime endpoint 지원.
- Realtime translation endpoint 지원.
- Realtime transcription session endpoint 지원.
- Reasoning token support.
- Configurable reasoning effort.
추론 effort가 높아질수록 지연 시간과 출력 토큰 사용량이 증가할 수 있다. 따라서 실시간 제품에서는 단순한 응답은 낮은 effort로, 복잡한 작업은 높은 effort로 분기하는 설계가 필요하다.
음성 인터페이스의 세 가지 패턴
Voice-to-Action
사용자가 말로 요구하면 시스템이 추론하고 도구를 호출해 작업을 완료한다.
예시는 다음과 같다.
- 부동산 검색 조건을 말하면 매물을 찾고 투어 일정을 예약한다.
- 여행 계획 변경 요청을 말하면 항공편, 호텔, 일정 도구를 호출한다.
- 고객 지원 요청을 말하면 계정 상태를 확인하고 조치를 수행한다.
이 패턴에서는 음성 모델이 단순 응답자가 아니라 도구 실행을 조율하는 에이전트가 된다.
Systems-to-Voice
소프트웨어 시스템의 상태와 이벤트를 실시간 음성 안내로 바꾸는 패턴이다.
예시는 다음과 같다.
- 항공편 지연과 환승 가능성을 음성으로 설명.
- 새 게이트와 터미널 최단 경로 안내.
- 배송, 금융, 헬스케어 상태 변경을 선제적으로 안내.
이 패턴에서는 LLM보다도 시스템 이벤트, 컨텍스트, 적절한 타이밍이 중요하다.
Voice-to-Voice
AI가 언어, 작업, 컨텍스트 변화를 넘나들며 실시간 대화를 이어가는 패턴이다.
실시간 번역, 다국어 고객 지원, 회의 통역, 여행 중 대화 보조가 여기에 해당한다.
GPT-Realtime-Translate
GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 모델로 설명된다. 각 참여자가 자기 언어로 말하면, 상대방은 선호 언어로 번역된 음성을 듣고 전사도 확인할 수 있다.
활용처는 다음과 같다.
- 다국어 고객 지원.
- 국경 간 영업.
- 온라인 교육.
- 글로벌 이벤트.
- 미디어와 크리에이터 플랫폼.
- 제품 교육 영상의 실시간 현지화.
실시간 번역은 단순 문장 번역보다 어렵다. 화자의 속도, 억양, 발화 중 수정, 도메인 용어, 지역 발음을 처리하면서 낮은 지연 시간을 유지해야 한다.
GPT-Realtime-Whisper
GPT-Realtime-Whisper는 스트리밍 음성 전사용 모델이다. 사용자가 말하는 동안 텍스트를 생성하는 방식이라, 대화가 끝난 뒤 일괄 전사하는 모델과 용도가 다르다.
활용처는 다음과 같다.
- 실시간 캡션.
- 회의 중 노트 생성.
- 고객 상담 중 실시간 요약.
- 헬스케어·영업·채용 통화의 후속 워크플로우.
- 음성 에이전트의 지속적 사용자 이해.
음성 에이전트에서는 전사 자체가 최종 산출물이 아닐 수 있다. 전사는 이후 요약, 액션 아이템 추출, CRM 기록, 검색 인덱싱으로 이어지는 중간 표현이 된다.
실시간 음성 에이전트 설계 포인트
GPT-Realtime-2 계열을 사용할 때 중요한 설계 포인트는 모델 선택보다 세션 설계다.
- 연결 방식: 브라우저/모바일은 WebRTC, 서버 중간 계층은 WebSocket, 전화망은 SIP가 적합하다.
- 턴테이킹: 사용자가 끼어들 때 모델이 자연스럽게 멈추고 수정된 의도를 반영해야 한다.
- 도구 투명성: “캘린더 확인 중”, “검색 중” 같은 짧은 preamble로 대기감을 줄인다.
- 병렬 도구 호출: 검색, 예약, 캘린더 확인 같은 작업을 동시에 실행해 지연을 줄인다.
- 추론 effort 제어: 모든 요청에 높은 추론을 쓰면 지연과 비용이 커진다.
- 안전 가드레일: 음성은 사용자가 AI와 대화 중임을 명확히 인식하게 해야 한다.
가격과 비용 구조
공식 모델 문서 기준 GPT-Realtime-2 가격은 다음과 같이 제시된다.
- 텍스트 입력: 100만 토큰당 $4.00.
- 텍스트 캐시 입력: 100만 토큰당 $0.40.
- 텍스트 출력: 100만 토큰당 $24.00.
- 오디오 입력: 100만 토큰당 $32.00.
- 오디오 캐시 입력: 100만 토큰당 $0.40.
- 오디오 출력: 100만 토큰당 $64.00.
- 이미지 입력: 100만 토큰당 $5.00.
- 이미지 캐시 입력: 100만 토큰당 $0.50.
음성 제품에서는 오디오 토큰 비용이 크기 때문에 다음 최적화가 중요하다.
- 불필요한 마이크 스트림을 줄인다.
- 침묵 구간과 VAD 설정을 조정한다.
- 캐시 가능한 시스템 프롬프트와 컨텍스트를 분리한다.
- 단순 전사와 고급 추론 음성 모델을 분리한다.
- 모든 요청에 높은 reasoning effort를 쓰지 않는다.
안전성과 정책
실시간 음성은 사용자의 신뢰와 착각 가능성이 높은 인터페이스다. 따라서 개발자는 다음을 고려해야 한다.
- 최종 사용자에게 AI와 상호작용 중임을 명확히 알린다.
- 스팸, 기만, 사칭, 유해 목적의 자동 음성 생성을 막는다.
- 서버 측 가드레일과 웹훅으로 세션을 제어한다.
- Agents SDK의 guardrails나 별도 정책 검사 레이어를 둔다.
- 상담, 의료, 금융처럼 민감한 도메인은 로그, 전사, 보관 정책을 명확히 한다.
시사점
GPT-Realtime-2 계열은 음성을 “입출력 포맷”이 아니라 “실시간 에이전트 인터페이스”로 바꾸는 흐름을 보여준다.
기존 구조는 다음에 가까웠다.
음성 입력 → STT → 텍스트 LLM → TTS → 음성 출력Realtime-2 계열의 방향은 다음에 가깝다.
실시간 음성 세션
→ 컨텍스트 유지
→ 추론 effort 조절
→ 도구 호출
→ 번역/전사
→ 중단 처리
→ 음성 응답따라서 음성 제품의 경쟁력은 모델 하나보다 세션 하네스, 도구 연결, 비용 제어, VAD, 안전 정책, 사용자 경험 설계에서 결정될 가능성이 높다.