Méthode de contrôle des capacités

Une méthode de contrôle des capacités est une méthode visant à empêcher les résultats indésirables issus de l’intelligence artificielle en limitant ce que l’IA peut faire. Les méthodes de contrôle des capacités englobent le confinement de l’IA, les méthodes d’incitation (y compris la capture anthropique), l’étourdissement et l’utilisation de pièges⁠1. Les méthodes de contrôle des capacités peuvent être opposées aux méthodes de sélection des motivations, qui tentent au contraire de restreindre ce que l’IA veut faire.

Pour en savoir plus

Nick Bostrom (2017) Superintelligence, Malakoff: Dunod, chap. 9.

Entrées associées

alignement de l’IAconfinement de l’IAcapture anthropiqueméthode de sélection de la motivation