본문 바로가기

AI2026년 5월 28일2분 읽기

OpenAI Realtime API + WebRTC — 음성 어시스턴트 6개월 운영

YS

김영삼2026년 5월 28일

조회 1094

OpenAI Realtime API + WebRTC — 음성 어시스턴트 6개월 운영

핵심 요약

OpenAI Realtime API + WebRTC로 콜센터 IVR 음성 어시스턴트 production. p50 응답 320ms, 분당 $0.06, 6개월 사용자 만족도 8.4/10. 한국어 발음 자연도 좋으나 사투리·전문 용어 한계.

1. WebRTC 통합 — 핵심 이점

브라우저↔OpenAI 직접 P2P. 자체 서버 우회 → 지연 -180ms. ICE 서버만 호스팅.

// 클라이언트
const pc = new RTCPeerConnection()
const stream = await navigator.mediaDevices.getUserMedia({ audio: true })
stream.getTracks().forEach(t => pc.addTrack(t, stream))
// signaling으로 OpenAI Realtime endpoint 연결

2. 한국어 품질

항목	점수
발음 자연도	8.6/10
ASR 정확도(표준어)	94%
사투리(경상도)	72%
전문용어	58%

3. function calling — 도구 사용

Realtime 안에서 tool calling. 발화 → 의도 파악 → 사내 API 호출 → 결과 음성 응답. 자연스럽게 멀티턴.

4. 비용

입력 음성: $0.06/분
출력 음성: $0.24/분
function call: $0.005/회
월 평균 사용자당 $14

5. 함정

네트워크 — 패킷 손실 5% 이상에서 응답 끊김. fallback to text 옵션
Echo 차단 — AEC 정확히 설정, 안 그러면 어시스턴트가 자기 음성 듣고 답함
PII 음성 — 전화번호·주민등록번호 음성 출력 차단, prompt에 명시 + post-filter
세션 단위 비용 — 5분 idle도 청구, idle timeout 30초 설정

OpenAI Realtime WebRTC Voice

Sentry 25 Trace Explorer — 트레이스 분석 워크플로 6가지

Vercel Fluid Compute — production 6주 실측, 콜드 스타트 -82% 비용 -34%

댓글 0

아직 댓글이 없습니다.

Ctrl+Enter로 등록