Extraction des connaissances latentes
L’extraction des connaissances latentes* est une problématique de la sûreté de l’IA identifiée par Paul Christiano, Ajeya Cotra et Mark Xu dans un rapport éponyme. Les auteurs la caractérisent comme suit1 :
Supposons que nous entraînions un modèle à prédire ce à quoi ressemblera l’avenir d’après des caméras et d’autres capteurs. Nous utilisons ensuite des algorithmes de planification pour trouver une séquence d’actions conduisant à des futurs prédits qui nous paraissent satisfaisants.
Mais certaines séquences d’action pourraient trafiquer les caméras de manière à montrer des humains heureux, sans tenir compte de ce qui se passe réellement. De manière plus générale, certains avenirs semblent parfaits en image, mais sont en réalité catastrophiquement négatifs.
Dans ces cas, le modèle de prédiction « connaît » des faits (comme « la caméra a été trafiquée ») qui ne sont pas visibles à l’image mais qui modifieraient notre évaluation de l’avenir prédit si nous les apprenions. Comment pouvons-nous entraîner ce modèle à rapporter sa connaissance latente des événements en hors-champ ?
Paul Christiano, Ajeya Cotra & Mark Xu (2021) Eliciting Latent Knowledge, Alignment Research Center.
Marius Hobbhahn (2022) Eliciting Latent Knowledge (ELK) - Distillation/summary, AI Alignment Forum, 8 juin.