본문 바로가기

AI#AI#Safety조회 93

Interpretability란?

정의

딥러닝 모델 내부 동작을 사람이 이해할 수 있게 분석하는 연구 분야.

다른 표현해석가능성

Interpretability란?

블랙박스 신경망의 내부 표현과 의사결정 과정을 해석 가능하게 만드는 연구다.

접근

Mechanistic — 뉴런·회로 단위 역공학 (Anthropic)
SHAP, LIME — 지역적 중요도 설명
Attention 시각화
Probing — 내부 표현 분석

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.