본문 바로가기
AI#AI#NLP조회 17

BPE란?Byte Pair Encoding

정의

자주 등장하는 문자 쌍을 병합해 서브워드 어휘를 구축하는 토큰화 기법. GPT·Llama가 사용.

BPE란?

가장 빈번한 연속된 두 바이트/문자를 반복 병합해 어휘를 학습한다.

장점

  • OOV(어휘 밖 단어) 없음 — 문자 단위로 쪼갤 수 있음
  • 다국어·특수 기호 처리 유연
  • 어휘 크기 조절 가능 (보통 32k~128k)

🔗 함께 보면 좋은 용어

AI 전체 →