본문 바로가기
AI#AI#NLP조회 20

Tokenizer란?

정의

텍스트를 LLM이 이해하는 토큰 단위로 분할하는 컴포넌트. BPE·WordPiece·SentencePiece가 대표.

다른 표현토크나이저

Tokenizer란?

모델별로 다른 서브워드 분할 알고리즘이다. 같은 텍스트도 모델마다 토큰 수가 달라진다.

방식

  • BPE (Byte Pair Encoding) — GPT, Llama
  • WordPiece — BERT
  • SentencePiece — T5, Gemma (공백 처리 포함)

🔗 함께 보면 좋은 용어

AI 전체 →