LLM 평가 지표BLEU·ROUGE — 번역·요약 (n-gram)BERTScore — 의미적 유사도LLM-Judge — 모델 평가Pass@k — 코드 (HumanEval)Human Preference