본문 바로가기

AI#AI#Evaluation조회 98

LLM-as-Judge란?

정의

강한 LLM이 다른 모델 응답을 평가하는 자동 평가 기법. 사람 평가의 대안.

LLM-as-Judge

사람이 일일이 평가하기엔 느리고 비싸다. GPT-4·Claude가 평가자 역할.

주의

자기 모델 선호 편향
길이 편향 (긴 답 선호)
Rubric 명확히 제공 필수

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.