사내 문서 검색용 RAG 시스템을 구축 중인데, 문서 청킹(chunking) 전략에서 막혔습니다.
현재 상황:
- 사내 기술 문서 약 2,000개 (마크다운, PDF)
- 문서 길이: 500자 ~ 10,000자
- OpenAI embedding + Pinecone 사용 예정
- LangChain 기반
단순히 고정 크기(512 토큰)로 자르면 문맥이 깨지는 경우가 많고, 의미 단위로 자르면 크기가 들쭉날쭉해서 검색 품질이 안정적이지 않습니다.
실무에서 효과적인 청킹 전략이 궁금합니다.
댓글 0