핵심 요약
OpenAI Realtime API + WebRTC로 콜센터 IVR 음성 어시스턴트 production. p50 응답 320ms, 분당 $0.06, 6개월 사용자 만족도 8.4/10. 한국어 발음 자연도 좋으나 사투리·전문 용어 한계.
1. WebRTC 통합 — 핵심 이점
브라우저↔OpenAI 직접 P2P. 자체 서버 우회 → 지연 -180ms. ICE 서버만 호스팅.
// 클라이언트
const pc = new RTCPeerConnection()
const stream = await navigator.mediaDevices.getUserMedia({ audio: true })
stream.getTracks().forEach(t => pc.addTrack(t, stream))
// signaling으로 OpenAI Realtime endpoint 연결
2. 한국어 품질
| 항목 | 점수 | |
|---|---|---|
| 발음 자연도 | 8.6/10 | |
| ASR 정확도(표준어) | 94% | |
| 사투리(경상도) | 72% | |
| 전문용어 | 58% |
3. function calling — 도구 사용
Realtime 안에서 tool calling. 발화 → 의도 파악 → 사내 API 호출 → 결과 음성 응답. 자연스럽게 멀티턴.
4. 비용
- 입력 음성: $0.06/분
- 출력 음성: $0.24/분
- function call: $0.005/회
- 월 평균 사용자당 $14
5. 함정
- 네트워크 — 패킷 손실 5% 이상에서 응답 끊김. fallback to text 옵션
- Echo 차단 — AEC 정확히 설정, 안 그러면 어시스턴트가 자기 음성 듣고 답함
- PII 음성 — 전화번호·주민등록번호 음성 출력 차단, prompt에 명시 + post-filter
- 세션 단위 비용 — 5분 idle도 청구, idle timeout 30초 설정

댓글 0