Les systèmes d’apprentissage automatique actuels ne sont généralement pas très transparents ou interprétables. Vous pouvez utiliser les sorties d’un modèle, mais le modèle ne peut pas vous dire pourquoi il a produit cette sortie. Il est donc difficile de déterminer la cause des biais dans les modèles.2
L’interprétabilité est au cœur des travaux de Chris Olah et d’Anthropic, bien que de nombreuses organisations d’alignement de de l’IA travaillent sur l’interprétabilité, au moins dans une certaine mesure.3