핵심 요약
OpenAI가 GPT-5.5를 정식 GA로 출시했다. 베타 6주간 적용된 추론 모드 효율 개선이 정식 반영되며 동일 문제에 추론 토큰을 평균 60% 적게 쓰면서 정확도는 +2.3%p 상승. 도구 병렬 호출과 Structured Output Strict 모드도 안정화.
- 추론 모드 비용: GPT-5 대비 평균 -38%
- 도구 병렬 호출: 최대 8개 동시
- 가격: 입력 $1.8 / 1M, 출력 $8 / 1M
- 지원 컨텍스트: 400K
Sam Altman 코멘트
"우리는 'reasoning을 켜는 것이 부담'이라는 인식을 GPT-5.5로 뒤집고 싶었다. 이제 추론 모드가 기본이고, 일반 모드는 단순 응답용으로 격하된다."
벤치마크
| 벤치 | GPT-5 | GPT-5.5 | Claude 4.6 |
|---|---|---|---|
| SWE-bench Verified | 74.2% | 78.6% | 76.4% |
| MMLU-Pro | 84.1% | 86.3% | 85.0% |
| GPQA | 78.4% | 81.0% | 79.2% |
| HAERAE(한국어) | 86.7 | 88.4 | 89.1 |
도구 병렬 호출
이전 단일 도구 호출에서 한 턴 8개 동시 처리. 사내 백오피스 에이전트 응답 시간이 평균 3.8s → 1.4s로 단축됐다는 초기 사용자 보고. 비용은 동일하지만 latency가 큰 변화.
Structured Output
JSON Schema Strict 모드가 첫 호출 컴파일 지연을 1.5s → 0.3s로 단축. 복잡 스키마(oneOf/anyOf)에서도 첫 응답이 빠르다.
경쟁 구도
Anthropic Sonnet 4.6과 가격·성능이 거의 동급. Gemini 3 Pro와는 가격에서 OpenAI가 12% 싸다. 멀티에이전트 워크플로는 Gemini, 코드는 Claude, 일반 추론은 GPT가 미세 우세인 그림.
한국 기업 즉시 영향
- 네이버·카카오 자체 LLM 단가 경쟁 압박
- 국내 SaaS의 LLM 비용 -20% 즉시 가능
- Anthropic·Google과 멀티 벤더 운영이 사실상 표준화

댓글 0