Interpretability란?블랙박스 신경망의 내부 표현과 의사결정 과정을 해석 가능하게 만드는 연구다.접근Mechanistic — 뉴런·회로 단위 역공학 (Anthropic)SHAP, LIME — 지역적 중요도 설명Attention 시각화Probing — 내부 표현 분석