토큰이란?
LLM은 텍스트를 직접 다루지 않고 토큰이라는 서브워드 단위로 쪼개 처리한다. 모델별로 Tokenizer가 다르며 비용·컨텍스트 길이도 토큰 기준으로 계산된다.
근사 기준
- 영어: 1 단어 ≈ 1.3 토큰
- 한국어: 1 글자 ≈ 1~2 토큰 (모델마다 차이 큼)
- 코드: 영어보다 많은 편 (특수 문자 많음)
왜 중요한가
- API 비용이 토큰 단위 과금
- 컨텍스트 윈도우(200k, 1M 등)가 토큰 한계
- 긴 프롬프트는 비용과 지연을 모두 늘린다