GPT-Realtime-2

핵심 요약

GPT-Realtime-2는 OpenAI의 실시간 음성 상호작용용 추론 모델이다. 공식 모델 문서 기준으로 텍스트·오디오·이미지를 입력으로 받고, 텍스트·오디오를 출력하며, Realtime API에서 사용할 수 있다.

이 모델의 의미는 음성 AI가 단순한 STT → LLM → TTS 파이프라인을 넘어, 음성 대화 중 추론·도구 호출·중단 처리·맥락 유지를 동시에 수행하는 방향으로 이동했다는 점이다.

OpenAI가 함께 제시한 실시간 오디오 모델군은 세 가지 축으로 볼 수 있다.

GPT-Realtime-2: 추론과 도구 호출을 수행하는 실시간 음성 모델.
GPT-Realtime-Translate: 실시간 다국어 음성 번역 모델.
GPT-Realtime-Whisper: 저지연 스트리밍 전사 모델.

GPT-Realtime-2

GPT-Realtime-2는 실시간 voice agent 워크플로우를 겨냥한다. 기존 음성 모델이 빠른 턴테이킹과 자연스러운 목소리에 집중했다면, Realtime-2는 복잡한 요청을 이해하고 대화 중 도구를 사용하며 사용자의 수정·중단을 처리하는 데 초점을 둔다.

공식 모델 문서에서 확인되는 주요 특성은 다음과 같다.

128,000 토큰 컨텍스트 윈도우.
32,000 최대 출력 토큰.
텍스트, 오디오, 이미지 입력.
텍스트, 오디오 출력.
Function calling 지원.
Realtime endpoint 지원.
Realtime translation endpoint 지원.
Realtime transcription session endpoint 지원.
Reasoning token support.
Configurable reasoning effort.

추론 effort가 높아질수록 지연 시간과 출력 토큰 사용량이 증가할 수 있다. 따라서 실시간 제품에서는 단순한 응답은 낮은 effort로, 복잡한 작업은 높은 effort로 분기하는 설계가 필요하다.

음성 인터페이스의 세 가지 패턴

Voice-to-Action

사용자가 말로 요구하면 시스템이 추론하고 도구를 호출해 작업을 완료한다.

예시는 다음과 같다.

부동산 검색 조건을 말하면 매물을 찾고 투어 일정을 예약한다.
여행 계획 변경 요청을 말하면 항공편, 호텔, 일정 도구를 호출한다.
고객 지원 요청을 말하면 계정 상태를 확인하고 조치를 수행한다.

이 패턴에서는 음성 모델이 단순 응답자가 아니라 도구 실행을 조율하는 에이전트가 된다.

Systems-to-Voice

소프트웨어 시스템의 상태와 이벤트를 실시간 음성 안내로 바꾸는 패턴이다.

예시는 다음과 같다.

항공편 지연과 환승 가능성을 음성으로 설명.
새 게이트와 터미널 최단 경로 안내.
배송, 금융, 헬스케어 상태 변경을 선제적으로 안내.

이 패턴에서는 LLM보다도 시스템 이벤트, 컨텍스트, 적절한 타이밍이 중요하다.

Voice-to-Voice

AI가 언어, 작업, 컨텍스트 변화를 넘나들며 실시간 대화를 이어가는 패턴이다.

실시간 번역, 다국어 고객 지원, 회의 통역, 여행 중 대화 보조가 여기에 해당한다.

GPT-Realtime-Translate

GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 모델로 설명된다. 각 참여자가 자기 언어로 말하면, 상대방은 선호 언어로 번역된 음성을 듣고 전사도 확인할 수 있다.

활용처는 다음과 같다.

다국어 고객 지원.
국경 간 영업.
온라인 교육.
글로벌 이벤트.
미디어와 크리에이터 플랫폼.
제품 교육 영상의 실시간 현지화.

실시간 번역은 단순 문장 번역보다 어렵다. 화자의 속도, 억양, 발화 중 수정, 도메인 용어, 지역 발음을 처리하면서 낮은 지연 시간을 유지해야 한다.

GPT-Realtime-Whisper

GPT-Realtime-Whisper는 스트리밍 음성 전사용 모델이다. 사용자가 말하는 동안 텍스트를 생성하는 방식이라, 대화가 끝난 뒤 일괄 전사하는 모델과 용도가 다르다.

활용처는 다음과 같다.

실시간 캡션.
회의 중 노트 생성.
고객 상담 중 실시간 요약.
헬스케어·영업·채용 통화의 후속 워크플로우.
음성 에이전트의 지속적 사용자 이해.

음성 에이전트에서는 전사 자체가 최종 산출물이 아닐 수 있다. 전사는 이후 요약, 액션 아이템 추출, CRM 기록, 검색 인덱싱으로 이어지는 중간 표현이 된다.

실시간 음성 에이전트 설계 포인트

GPT-Realtime-2 계열을 사용할 때 중요한 설계 포인트는 모델 선택보다 세션 설계다.

연결 방식: 브라우저/모바일은 WebRTC, 서버 중간 계층은 WebSocket, 전화망은 SIP가 적합하다.
턴테이킹: 사용자가 끼어들 때 모델이 자연스럽게 멈추고 수정된 의도를 반영해야 한다.
도구 투명성: “캘린더 확인 중”, “검색 중” 같은 짧은 preamble로 대기감을 줄인다.
병렬 도구 호출: 검색, 예약, 캘린더 확인 같은 작업을 동시에 실행해 지연을 줄인다.
추론 effort 제어: 모든 요청에 높은 추론을 쓰면 지연과 비용이 커진다.
안전 가드레일: 음성은 사용자가 AI와 대화 중임을 명확히 인식하게 해야 한다.

가격과 비용 구조

공식 모델 문서 기준 GPT-Realtime-2 가격은 다음과 같이 제시된다.

텍스트 입력: 100만 토큰당 $4.00.
텍스트 캐시 입력: 100만 토큰당 $0.40.
텍스트 출력: 100만 토큰당 $24.00.
오디오 입력: 100만 토큰당 $32.00.
오디오 캐시 입력: 100만 토큰당 $0.40.
오디오 출력: 100만 토큰당 $64.00.
이미지 입력: 100만 토큰당 $5.00.
이미지 캐시 입력: 100만 토큰당 $0.50.

음성 제품에서는 오디오 토큰 비용이 크기 때문에 다음 최적화가 중요하다.

불필요한 마이크 스트림을 줄인다.
침묵 구간과 VAD 설정을 조정한다.
캐시 가능한 시스템 프롬프트와 컨텍스트를 분리한다.
단순 전사와 고급 추론 음성 모델을 분리한다.
모든 요청에 높은 reasoning effort를 쓰지 않는다.

안전성과 정책

실시간 음성은 사용자의 신뢰와 착각 가능성이 높은 인터페이스다. 따라서 개발자는 다음을 고려해야 한다.

최종 사용자에게 AI와 상호작용 중임을 명확히 알린다.
스팸, 기만, 사칭, 유해 목적의 자동 음성 생성을 막는다.
서버 측 가드레일과 웹훅으로 세션을 제어한다.
Agents SDK의 guardrails나 별도 정책 검사 레이어를 둔다.
상담, 의료, 금융처럼 민감한 도메인은 로그, 전사, 보관 정책을 명확히 한다.

시사점

GPT-Realtime-2 계열은 음성을 “입출력 포맷”이 아니라 “실시간 에이전트 인터페이스”로 바꾸는 흐름을 보여준다.

기존 구조는 다음에 가까웠다.

음성 입력 → STT → 텍스트 LLM → TTS → 음성 출력

Realtime-2 계열의 방향은 다음에 가깝다.

실시간 음성 세션
→ 컨텍스트 유지
→ 추론 effort 조절
→ 도구 호출
→ 번역/전사
→ 중단 처리
→ 음성 응답

따라서 음성 제품의 경쟁력은 모델 하나보다 세션 하네스, 도구 연결, 비용 제어, VAD, 안전 정책, 사용자 경험 설계에서 결정될 가능성이 높다.

Bigstones

Explorer

GPT-Realtime-2

GPT-Realtime-2

핵심 요약

GPT-Realtime-2

음성 인터페이스의 세 가지 패턴

Voice-to-Action

Systems-to-Voice

Voice-to-Voice

GPT-Realtime-Translate

GPT-Realtime-Whisper

실시간 음성 에이전트 설계 포인트

가격과 비용 구조

안전성과 정책

시사점

관련 노트

Graph View

Table of Contents