Tokenizer란?
모델별로 다른 서브워드 분할 알고리즘이다. 같은 텍스트도 모델마다 토큰 수가 달라진다.
방식
- BPE (Byte Pair Encoding) — GPT, Llama
- WordPiece — BERT
- SentencePiece — T5, Gemma (공백 처리 포함)
텍스트를 LLM이 이해하는 토큰 단위로 분할하는 컴포넌트. BPE·WordPiece·SentencePiece가 대표.
모델별로 다른 서브워드 분할 알고리즘이다. 같은 텍스트도 모델마다 토큰 수가 달라진다.