Interprétabilité de l’IA

L’interprétabilité de l’IA (ou interprétabilité, en abrégé) est la capacité des processus de décision et des rouages internes des systèmes d’IA et d’apprentissage automatique à être compris par les humains ou d’autres observateurs extérieurs.⁠1

Les systèmes d’apprentissage automatique actuels ne sont généralement pas très transparents ou interprétables. Vous pouvez utiliser les sorties d’un modèle, mais le modèle ne peut pas vous dire pourquoi il a produit cette sortie. Il est donc difficile de déterminer la cause des biais dans les modèles.⁠2

L’interprétabilité est au cœur des travaux de Chris Olah et d’Anthropic, bien que de nombreuses organisations d’alignement de de l’IA travaillent sur l’interprétabilité, au moins dans une certaine mesure.⁠3

Entrées associées

risque de l’IA • sûreté de l’IA • intelligence artificielle • extraction des connaissances latentes