Needle in a Haystack이란?
수십만 토큰의 문서 중간에 관련 없는 문장을 숨겨두고 질문한다. "건초더미에서 바늘 찾기".
발견
- 초기 LLM은 앞뒤는 잘 찾는데 중간 놓침
- Claude 100K(2023)가 처음 거의 100%
- Gemini 2M까지 확장되며 테스트 난이도 상승
Long Context LLM의 정보 검색 능력을 평가하는 테스트. 긴 문서 중간에 숨긴 문장을 찾게 함.
수십만 토큰의 문서 중간에 관련 없는 문장을 숨겨두고 질문한다. "건초더미에서 바늘 찾기".