Interprétabilité de l’IA
L’interprétabilité de l’IA (ou interprétabilité, en abrégé) est la capacité des processus de décision et des rouages internes des systèmes d’IA et d’apprentissage automatique à être compris par les humains ou d’autres observateurs extérieurs.1
Les systèmes d’apprentissage automatique actuels ne sont généralement pas très transparents ou interprétables. Vous pouvez utiliser les sorties d’un modèle, mais le modèle ne peut pas vous dire pourquoi il a produit cette sortie. Il est donc difficile de déterminer la cause des biais dans les modèles.2
L’interprétabilité est au cœur des travaux de Chris Olah et d’Anthropic, bien que de nombreuses organisations d’alignement de de l’IA travaillent sur l’interprétabilité, au moins dans une certaine mesure.3
Entrées associées
risque de l’IA • sûreté de l’IA • intelligence artificielle • extraction des connaissances latentes