Chunking이란?
PDF·웹페이지를 500~1000 토큰 단위로 쪼개 벡터 인덱싱하는 작업이다.
전략
- 고정 크기 + 오버랩 10~20%
- 문장·문단 경계
- 계층적 (섹션 요약 + 하위)
- 코드·표는 구조 단위 존중
품질 결정
RAG 성능의 50%가 청킹에서 결정된다는 말이 있을 정도로 중요.
RAG 파이프라인의 첫 단계. 긴 문서를 임베딩·검색에 적합한 단위로 분할.
PDF·웹페이지를 500~1000 토큰 단위로 쪼개 벡터 인덱싱하는 작업이다.
RAG 성능의 50%가 청킹에서 결정된다는 말이 있을 정도로 중요.