본문 바로가기

AI#AI#NLP조회 20

Tokenizer란?

정의

텍스트를 LLM이 이해하는 토큰 단위로 분할하는 컴포넌트. BPE·WordPiece·SentencePiece가 대표.

다른 표현토크나이저

Tokenizer란?

모델별로 다른 서브워드 분할 알고리즘이다. 같은 텍스트도 모델마다 토큰 수가 달라진다.

방식

BPE (Byte Pair Encoding) — GPT, Llama
WordPiece — BERT
SentencePiece — T5, Gemma (공백 처리 포함)

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.