본문 바로가기
AI#AI#Safety조회 1

Interpretability란?

정의

딥러닝 모델 내부 동작을 사람이 이해할 수 있게 분석하는 연구 분야.

다른 표현해석가능성

Interpretability란?

블랙박스 신경망의 내부 표현과 의사결정 과정을 해석 가능하게 만드는 연구다.

접근

  • Mechanistic — 뉴런·회로 단위 역공학 (Anthropic)
  • SHAP, LIME — 지역적 중요도 설명
  • Attention 시각화
  • Probing — 내부 표현 분석

🔗 함께 보면 좋은 용어

AI 전체 →