Batch Size란?한 번에 gradient를 계산할 샘플 개수다.트레이드오프크게 — 학습 안정, 메모리 요구 큼작게 — 메모리 절약, 노이즈 많음 (일반화엔 도움)실무32, 64, 128이 흔함. LLM은 수천~수만까지.