본문 바로가기
AI2026년 5월 28일2분 읽기

OpenAI Realtime API + WebRTC — 음성 어시스턴트 6개월 운영

YS
김영삼
조회 932
OpenAI Realtime API + WebRTC — 음성 어시스턴트 6개월 운영

핵심 요약

OpenAI Realtime API + WebRTC로 콜센터 IVR 음성 어시스턴트 production. p50 응답 320ms, 분당 $0.06, 6개월 사용자 만족도 8.4/10. 한국어 발음 자연도 좋으나 사투리·전문 용어 한계.

1. WebRTC 통합 — 핵심 이점

브라우저↔OpenAI 직접 P2P. 자체 서버 우회 → 지연 -180ms. ICE 서버만 호스팅.

// 클라이언트
const pc = new RTCPeerConnection()
const stream = await navigator.mediaDevices.getUserMedia({ audio: true })
stream.getTracks().forEach(t => pc.addTrack(t, stream))
// signaling으로 OpenAI Realtime endpoint 연결

2. 한국어 품질

항목점수
발음 자연도8.6/10
ASR 정확도(표준어)94%
사투리(경상도)72%
전문용어58%

3. function calling — 도구 사용

Realtime 안에서 tool calling. 발화 → 의도 파악 → 사내 API 호출 → 결과 음성 응답. 자연스럽게 멀티턴.

4. 비용

  • 입력 음성: $0.06/분
  • 출력 음성: $0.24/분
  • function call: $0.005/회
  • 월 평균 사용자당 $14

5. 함정

  • 네트워크 — 패킷 손실 5% 이상에서 응답 끊김. fallback to text 옵션
  • Echo 차단 — AEC 정확히 설정, 안 그러면 어시스턴트가 자기 음성 듣고 답함
  • PII 음성 — 전화번호·주민등록번호 음성 출력 차단, prompt에 명시 + post-filter
  • 세션 단위 비용 — 5분 idle도 청구, idle timeout 30초 설정

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록