Context Window란?
모델이 한 번의 요청에서 입력 + 출력 합산으로 처리 가능한 토큰 한계다.
2026년 주요 모델
- Claude Opus 4.7 — 200K (1M 확장 옵션)
- GPT-5.4 — 1M
- Gemini 3.1 Pro — 2M
긴 컨텍스트의 함정
- Lost in the Middle — 중간 내용을 덜 주목
- 비용이 토큰에 비례 — 대부분 cache 활용 필수
- 지연시간도 선형 증가
긴 문서는 RAG로 관련 부분만 추려 넣는 전략이 실무상 더 효율적인 경우가 많다.