Explainability | TruthfulAI

TruthfulAI

Explainability

May 13, 2024

Can Language Models Explain Their Own Classification Behavior?

Can Language Models Explain Their Own Classification Behavior?

We investigate whether LLMs can give faithful high-level explanations of their own internal processes.