OpenAI 저지연 음성 AI 인프라

OpenAI는 대규모 저지연 음성 AI를 위해 WebRTC 스택을 재설계했고, 핵심은 relay + transceiver 분리 구조였습니다.

한 줄 요약

“클라이언트는 표준 WebRTC를 그대로 쓰고, OpenAI 내부에서만 패킷 라우팅과 세션 종료를 분리해 지연과 운영 복잡성을 동시에 낮췄다.”

음성 AI는 말의 속도로 반응해야 하므로, 오디오가 연속 스트림으로 도착해야 합니다.

WebRTC는 다음을 표준화합니다.

즉, OpenAI는 저수준 미디어 스택을 새로 만들지 않고, 검증된 표준 위에 AI 인프라를 얹은 것입니다.

이 구조의 목적은 작은 공개 포트 표면과 세션 소유권 유지를 동시에 만족시키는 것입니다.

OpenAI는 ICE username fragment, 즉 ufrag를 라우팅 힌트로 사용했습니다.

여기에 Redis cache와 Global Relay를 결합해, 가까운 진입 경로를 유지하면서도 세션은 하나의 transceiver에 고정했습니다.

기존의 세션당 UDP 포트 1개 방식은 Kubernetes와 잘 맞지 않았습니다.

OpenAI는 그래서 서버별 단일 포트도 아닌 stateless relay + stateful terminator 조합을 선택했습니다.

이 사례의 핵심은 음성 모델 자체보다 실시간 미디어를 대규모로 운영하는 방식입니다.