Claude 4.9로 업그레이드 후 production 챗봇 응답이 가끔 5초로 늘었습니다. 평소 0.8s.
로그 분석 — 응답 시간 5초인 호출은 모두 extended thinking 토큰 4,000+ 사용. 사용자 질문은 단순한 인사 "안녕하세요" 같은 것도 가끔.
"안녕하세요"에 thinking 4,000 토큰... 어떻게 끄나요?
const response = await anthropic.messages.create({
model: 'claude-sonnet-4-9',
max_tokens: 1024,
messages: [{ role: 'user', content: '안녕하세요' }],
})
// 응답 5.2초, thinking 4,200 토큰 사용
댓글 0