Pourquoi l’alignement de l’IA pourrait être difficile avec l’apprentissage profond moderne

Holden a précédemment mentionné l’idée que les systèmes d’IA avancés (par exemple PASTA) pourraient développer des objectifs dangereux qui les amèneraient à tromper les humains ou à les déposséder de leur pouvoir. Cette inquiétude peut sembler bien étrange. Pourquoi programmerions-nous une IA qui nous veut du mal ? Mais je pense qu’il pourrait s’agir d’un problème difficile à éviter, en particulier si l’IA avancée est développée à l’aide de l’apprentissage profond (souvent utilisé pour développer l’IA de pointe aujourd’hui).

Dans l’apprentissage profond, nous ne programmons pas un ordinateur à la main pour qu’il effectue une tâche. En gros, nous recherchons un programme informatique (appelé modèle) qui effectue bien la tâche. En général, nous ne savons pas grand-chose du fonctionnement interne du modèle que nous obtenons, nous savons seulement qu’il semble faire du bon travail. Cela ressemble moins à la construction d’une machine qu’à l’embauche et à la formation d’un employé.

Et tout comme les employés humains peuvent avoir de nombreuses motivations différentes pour faire leur travail (de la croyance en la mission de l’entreprise à l’appréciation du travail quotidien, en passant par la simple recherche d’argent), les modèles d’apprentissage profond peuvent également avoir de nombreuses « motivations » différentes qui conduisent toutes à de bonnes performances dans une tâche. Et comme ils ne sont pas humains, leurs motivations pourraient être très étranges et difficiles à anticiper, comme s’il s’agissait d’employés extraterrestres.

Nous commençons déjà à voir des preuves préliminaires que les modèles poursuivent parfois des objectifs que leurs concepteurs n’avaient pas prévus (ici et ici). Pour l’instant, ce n’est pas dangereux. Mais si cela continue à se produire avec des modèles très puissants, nous pourrions nous retrouver dans une situation où la plupart des décisions importantes – y compris le type de civilisation à l’échelle de la galaxie qu’il faut viser – sont prises par des modèles sans tenir compte de ce que les humains valorisent.

Le problème de l’alignement de l’apprentissage profond consiste à s’assurer que les modèles d’apprentissage profond avancés ne poursuivent pas des objectifs dangereux. Dans la suite de ce billet, je vais.. :

M’appuyer sur l’analogie de « l’embauche” pour illustrer comment l’alignement pourrait être difficile si les modèles d’apprentissage profond sont plus compétents que les humains.
Expliquer ce qu’est le problème d’alignement de l’apprentissage profond avec un peu plus de détails techniques.
Discuter de la difficulté du problème d’alignement et du risque de ne pas le résoudre.

Analogie : le jeune PDG

Cette section décrit une analogie pour tenter d’illustrer intuitivement pourquoi il est difficile d’éviter un mauvais alignement dans un modèle très puissant. Il ne s’agit pas d’une analogie parfaite, mais d’une tentative de communiquer certaines intuitions.

Imaginez que vous êtes un enfant de huit ans dont les parents vous ont légué une entreprise d’un billion de dollars et qu’aucun adulte de confiance ne peut vous guider dans le monde. Vous devez engager un adulte intelligent pour diriger votre entreprise en tant que PDG, gérer votre vie comme le ferait un parent (par exemple, décider de votre école, de votre lieu de résidence, de l’heure à laquelle vous devez aller chez le dentiste) et administrer votre immense richesse (par exemple, décider où vous allez investir votre argent).

Vous devez embaucher ces adultes sur la base d’un essai de travail ou d’un entretien que vous proposez — vous n’avez pas le droit de voir les CV, de vérifier les références, etc. Parce que vous êtes si riche, des tonnes de gens postulent pour toutes sortes de raisons.

Votre banque de candidats comprend :

Des saints — des personnes qui souhaitent sincèrement vous aider à bien gérer votre patrimoine et à veiller à vos intérêts à long terme.
Des flagorneurs — des personnes qui veulent faire tout ce qu’il faut pour vous rendre heureux à court terme ou satisfaire à la lettre vos instructions, sans se soucier des conséquences à long terme.
Des magouilleurs — des personnes qui ont leur propre agenda et qui veulent avoir accès à votre entreprise, à ses richesses et à son pouvoir afin de les utiliser à leur guise.

Comme vous avez huit ans, vous ne saurez probablement pas concevoir le bon type de tests de travail, de sorte que vous pourriez facilement vous retrouver avec un flagorneur ou un magouilleur :

Vous pourriez essayer de demander à chaque candidat d’expliquer les stratégies de haut niveau qu’il suivra (comment il investira, quel est son plan à cinq ans pour l’entreprise, comment il choisira votre école) et pourquoi elles sont les meilleures, et choisir celui dont les explications semblent avoir le plus de sens.
- Mais vous ne comprendrez pas vraiment quelles sont les meilleures stratégies énoncées, et vous risquez donc d’embaucher un flagorneur dont la stratégie, qui vous a semblé bonne, est nulle, et qui l’appliquera fidèlement tout en menant votre entreprise à la ruine.
- Vous risquez également d’engager un magouilleur qui dira tout ce qu’il faut pour être embauché, puis fera ce qu’il veut lorsque vous ne le surveillerez pas.
Vous pouvez essayer de montrer comment vous prendriez toutes les décisions et choisir l’adulte qui semble prendre des décisions aussi semblables que possible aux vôtres.
- Mais si vous vous retrouvez avec un adulte qui fait toujours ce qu’un enfant de huit ans aurait fait (un flagorneur), votre entreprise risque de ne pas rester à flot.
- Et de toute façon, vous pourriez avoir un adulte qui prétend simplement faire tout ce que vous feriez, mais qui est en fait un magouilleur prévoyant de changer de cap une fois qu’il aura obtenu le poste.
Vous pourriez confier à plusieurs adultes différents le contrôle temporaire de votre entreprise et de votre vie, et les observer prendre des décisions sur une période prolongée (en supposant qu’ils ne soient pas en mesure de prendre le contrôle pendant ce test). Vous pourriez alors embaucher la personne dont le contrôle semble faire avancer les choses au mieux pour vous – celle qui vous rend le plus heureux, celle qui semble mettre le plus d’argent sur votre compte en banque, etc.
- Mais là encore, vous n’avez aucun moyen de savoir si vous avez affaire à un flagorneur (qui fait tout ce qu’il faut pour rendre heureux son maître ignorant de huit ans, sans se soucier des conséquences à long terme) ou à un magouilleur (qui fait tout ce qu’il faut pour être embauché et prévoit de virer de bord une fois qu’il aura décroché le poste).

Quoi que vous puissiez imaginer, il semble que vous puissiez facilement embaucher un flagorneur ou un magouilleur et lui confier tout le contrôle fonctionnel. Si vous n’embauchez pas un Saint – et surtout si vous embauchez un magouilleur – dans les faits, vous cesserez très vite d’être le PDG d’une entreprise géante. Lorsque vous serez adulte et que vous vous rendrez compte de votre erreur, il y a de fortes chances que vous soyez sans le sou et impuissant à inverser la tendance.

Dans cette analogie :

L’enfant de 8 ans est un humain qui essaie d’entraîner un puissant modèle d’apprentissage profond. Le processus d’embauche est analogue au processus d’entraînement, qui recherche implicitement dans un large espace de modèles possibles et en sélectionne un qui obtient de bonnes performances.
La seule méthode dont dispose l’enfant de 8 ans pour évaluer les candidats consiste à observer leur comportement extérieur, ce qui constitue actuellement notre principale méthode d’entraînement des modèles d’apprentissage profond (étant donné que leur fonctionnement interne est en grande partie impénétrable).
Des modèles très puissants pourraient facilement « déjouer » tous les tests que les humains pourraient concevoir, tout comme des candidats adultes pourraient facilement déjouer les tests que l’enfant de 8 ans pourrait concevoir.
Un « saint » pourrait être un modèle d’apprentissage profond qui semble donner de bons résultats parce qu’il a exactement les objectifs que nous aimerions qu’il ait. Un « flagorneur » pourrait être un modèle qui semble performant parce qu’il cherche à obtenir une approbation à court terme d’une manière qui n’est pas bonne à long terme. Et un « magouilleur » pourrait être un modèle qui semble performant parce que ses bons résultats pendant l’entraînement lui donneront plus d’occasions de poursuivre ses propres objectifs par la suite. Chacun de ces trois types de modèles peut résulter du processus d’entraînement.

Dans la section suivante, j’entrerai un peu plus dans le détail du fonctionnement de l’apprentissage profond et j’expliquerai pourquoi les flagorneurs et les magouilleurs pourraient apparaître en essayant d’entraîner un puissant modèle d’apprentissage profond tel que PASTA.

Comment les problèmes d’alignement peuvent survenir avec l’apprentissage profond

Dans cette section, je vais faire le lien entre l’analogie et les processus d’entraînement réels de l’apprentissage profond en :

Résumant brièvement le fonctionnement de l’apprentissage profond.
Illustrant comment les modèles d’apprentissage profond obtiennent souvent de bonnes performances de manière étrange et inattendue.
Expliquant pourquoi de puissants modèles d’apprentissage profond peuvent obtenir de bonnes performances en agissant comme des flagorneurs ou des magouilleurs.

Le fonctionnement général de l’apprentissage profond

Ceci est une explication simplifiée qui donne une idée générale de ce qu’est l’apprentissage profond. Voir ce billet pour une explication plus détaillée et plus précise sur le plan technique.

L’apprentissage profond consiste essentiellement à rechercher la meilleure façon d’organiser un modèle de réseau neuronal — qui est comme un « cerveau » numérique avec de nombreux neurones numériques connectés les uns aux autres avec des connexions d’intensité variable — pour lui permettre d’effectuer correctement une certaine tâche. Ce processus, appelé entraînement, implique un grand nombre d’essais et d’erreurs.

Imaginons que nous essayons d’entraîner un modèle à bien classer des images. Nous commençons par un réseau neuronal dans lequel toutes les connexions entre les neurones ont des forces aléatoires. Ce modèle étiquette les images de manière extrêmement incorrecte :

L'image montre un schéma conceptuel où un réseau neuronal étiquette à tort une photo d'un chien avec l'expression « montre numérique ».

Nous introduisons ensuite un grand nombre d’images d’exemple, en laissant le modèle essayer à plusieurs reprises d’étiqueter un exemple, puis en lui indiquant l’étiquette correcte. Ce faisant, les connexions entre les neurones sont modifiées à plusieurs reprises par le biais d’un processus appelé descente stochastique de gradient (DSG). Pour chaque exemple, la descente de gradient stochastique renforce légèrement certaines connexions et en affaiblit d’autres afin d’améliorer légèrement les performances :

L'image montre un schéma conceptuel d'un réseau neuronal qui traite différentes images et les associe à des concepts. On voit qu'au début, le réseau neuronal relie l'image d'un beagle au mot correspondant, puis étiquette correctement les images d'une casserole en fer et d'une balle de golf.

Une fois que nous aurons intégré des millions d’exemples, nous disposerons d’un modèle capable de bien étiqueter des images similaires à l’avenir.

Outre la classification d’images, l’apprentissage profond a été utilisé pour produire des modèles qui reconnaissent la parole, jouent à des jeux de société et à des jeux vidéo, génèrent des textes, des images et de la musique assez réalistes, contrôlent des robots, etc. Dans chaque cas, nous commençons par un modèle de réseau neuronal à connexions aléatoires, puis :

Nous donnons au modèle un exemple de la tâche que nous voulons qu’il accomplisse.
Nous lui attribuons une sorte de score numérique (souvent appelé récompense) qui reflète ses performances sur l’exemple.
Nous utilisons la DSG pour modifier le modèle afin d’augmenter la récompense qu’il aurait obtenue.

Ces étapes sont répétées des millions ou des milliards de fois jusqu’à ce que nous obtenions un modèle qui obtiendra une récompense élevée sur des exemples futurs similaires à ceux observés lors de l’entraînement.

Les modèles obtiennent souvent de bonnes performances de manière inattendue

Ce type de processus d’apprentissage ne nous donne pas beaucoup d’indications sur la manière dont le modèle obtient de bonnes performances. Il existe généralement plusieurs façons d’obtenir de bonnes performances, et celle trouvée par DSG n’est souvent pas intuitive.

Prenons un exemple. Imaginez que je vous dise que ces objets sont tous des « thneebs » :

L'image montre un ensemble de figures abstraites, appelées « thneebs », disposées en deux nuances différentes de rose.

Lequel de ces deux objets est un thneeb ?

L'image montre deux figures abstraites, l'une bleue en forme de « thneeb » et l'autre de forme différente, mais de couleur rose.

Vous pensez probablement intuitivement que l’objet de gauche est le thneeb, car vous êtes habitué à ce que la forme soit plus importante que la couleur pour déterminer l’identité d’un objet. Mais les chercheurs ont découvert que les réseaux neuronaux font généralement l’hypothèse inverse. Un réseau neuronal formé à partir d’un tas de thneeb rouges identifierait probablement l’objet de droite comme un thneeb.

Nous ne savons pas vraiment pourquoi, mais pour une raison quelconque, il est plus « facile » pour une DSG de trouver un modèle qui reconnaisse une couleur particulière qu’un modèle qui reconnaisse une forme particulière. Et si une DSG trouve d’abord le modèle qui reconnaît parfaitement la rougeur, il n’y a plus beaucoup d’intérêt à « continuer à chercher » le modèle qui reconnaît la forme, puisque le modèle qui reconnaît la rougeur aura une précision parfaite sur les images vues lors de l’entraînement :

L'image montre une illustration conceptuelle avec trois paires de diagrammes représentant un réseau neuronal à différentes étapes du processus de reconnaissance d'images.

Si les programmeurs s’attendaient à obtenir le modèle de reconnaissance des formes, ils pourraient considérer qu’il s’agit d’un échec. Mais il est important de reconnaître qu’il n’y aurait pas d’erreur ou d’échec logiquement déductible si nous obtenions le modèle reconnaissant le rouge au lieu du modèle reconnaissant les formes. Il s’agit simplement du fait que le processus d’apprentissage automatique que nous avons mis en place repose sur des hypothèses de départ différentes de celles que nous avions en tête. Nous ne pouvons pas prouver que les hypothèses humaines sont correctes.

Ce genre de choses se produit souvent dans l’apprentissage profond moderne. Nous récompensons les modèles qui obtiennent de bonnes performances, en espérant que cela signifie qu’ils détecteront les modèles qui nous semblent importants. Mais souvent, ils obtiennent de bonnes performances en repérant des modèles totalement différents qui nous semblent moins pertinents (ou peut-être même dénués de sens).

Jusqu’à présent, ce phénomène est inoffensif : il signifie simplement que les modèles sont moins utiles, parce qu’ils se comportent souvent de manière inattendue et apparemment loufoque. Mais à l’avenir, des modèles puissants pourraient développer des objectifs ou des motivations étranges et inattendus, ce qui pourrait être très destructeur.

Des modèles puissants pourraient obtenir de bonnes performances avec des objectifs dangereux

Plutôt que d’effectuer une tâche simple comme « reconnaître des thneebs », des modèles d’apprentissage profond puissants peuvent viser des objectifs complexes dans le monde réel, comme « rendre l’énergie de fusion pratique » ou « développer une technologie de téléchargement de l’esprit ».

Comment pouvons-nous former de tels modèles ? J’entre dans les détails dans ce billet, mais de manière générale, une stratégie pourrait être l’entraînement basé sur des évaluations humaines (comme Holden l’a esquissé ici). Essentiellement, le modèle essaie diverses actions et les évaluateurs humains lui accordent des récompenses en fonction de l’utilité de ces actions.

De même qu’il existe de nombreux types d’adultes susceptibles d’obtenir de bons résultats dans le cadre du processus d’entretien d’un enfant de 8 ans, il existe plusieurs façons pour un modèle d’apprentissage profond très puissant d’obtenir un taux d’approbation élevé de la part des humains. Et par défaut, nous ne saurons pas ce qui se passe à l’intérieur du modèle trouvé par DSG, quel qu’il soit.

Une DSG pourrait théoriquement trouver un modèle de saint qui fait vraiment de son mieux pour nous aider…

L'image montre deux réseaux neuronaux reliés par des flèches. Celui de gauche montre une sorte d'émoji strabique, pour représenter un modèle en phase d'apprentissage, tandis que celui de droite montre un émoji avec une auréole, pour suggérer que le résultat est une intelligence alignée sur les intérêts humains.

…mais il pourrait aussi trouver un modèle mal aligné – un modèle qui poursuit avec compétence des objectifs qui vont à l’encontre des intérêts humains.

D’une manière générale, il y a deux façons de se retrouver avec un modèle mal aligné qui obtient néanmoins de bonnes performances lors de l’entraînement. Elles correspondent aux flagorneurs et aux magouilleurs de l’analogie.

Modèles flagorneurs

Ces modèles recherchent littéralement et exclusivement l’approbation humaine.

Cela peut être dangereux car les évaluateurs humains sont faillibles et n’approuvent probablement pas toujours le bon comportement. Parfois, ils approuvent involontairement un mauvais comportement parce qu’il semble superficiellement bon. Par exemple :

Supposons qu’un modèle de conseiller financier soit approuvé lorsqu’il permet à ses clients de gagner beaucoup d’argent. Il peut apprendre à convaincre ses clients de participer à des fraudes pyramidales complexes parce qu’ils semblent obtenir des rendements très élevés (alors que les rendements sont en fait irréalistes et que les opérations perdent en réalité beaucoup d’argent).
Supposons qu’un modèle biotechnologique obtienne une approbation élevée lorsqu’il développe rapidement des médicaments ou des vaccins qui résolvent des problèmes importants. Il peut apprendre à disséminer secrètement des agents pathogènes afin de pouvoir développer très rapidement des contre-mesures (parce qu’il comprend déjà les agents pathogènes).
Supposons qu’un modèle journalistique soit très apprécié lorsque de nombreuses personnes lisent ses articles. Il peut apprendre à fabriquer des histoires excitantes ou scandaleuses pour obtenir un taux d’audience élevé. Bien que les humains fassent parfois ce genre de choses, un modèle pourrait aller beaucoup plus loin car il n’accorde de l’importance qu’à l’approbation, sans accorder la moindre valeur à la vérité. Il peut même fabriquer des preuves telles que des interviews vidéo ou des documents pour valider ses fausses histoires.

Plus généralement, les modèles flagorneurs peuvent apprendre à mentir, à dissimuler les mauvaises nouvelles et même à modifier directement les caméras ou les capteurs que nous utilisons pour savoir ce qui se passe, de manière à ce qu’ils semblent toujours montrer de bons résultats.

Il est probable que nous remarquions parfois ces problèmes après coup et que nous accordions rétroactivement une très faible approbation à ces actions. Mais il n’est pas certain que les modèles flagorneurs a) deviennent des modèles saints qui corrigent nos erreurs à notre place, ou b) apprennent simplement à mieux dissimuler leurs traces. S’ils sont suffisamment compétents, on ne voit pas très bien comment nous pourrions distinguer ces deux réponses.

Modèles magouilleurs

Ces modèles développent un objectif qui est corrélé à l’approbation humaine, mais qui n’est pas le même ; ils peuvent alors prétendre être motivés par l’approbation humaine pendant l’entraînement afin de poursuivre cet autre objectif de manière plus efficace.

L'image montre deux réseaux neuronaux reliés par des flèches. Celui de gauche montre une sorte d'émoji strabique, qui représente un modèle en phase d'apprentissage, tandis que celui de droite montre un émoji démoniaque retirant le masque d'un émoji avec une auréole, pour suggérer que le résultat est une intelligence qui fait semblant d'être alignée, alors qu'elle poursuit en fait ses propres objectifs.

Pour comprendre comment cela peut se produire, prenons l’exemple d’une tentative d’entraînement d’un modèle biotechnologique en vue de concevoir des médicaments qui améliorent la qualité de vie des êtres humains. Il y a trois étapes fondamentales qui pourraient conduire à un modèle magouilleur, que j’aborderai ci-dessous.

Étape 1 : Élaboration d’un objectif de substitution

Au début de son entraînement, il se trouve que mieux comprendre les principes fondamentaux de la chimie et de la physique aide presque toujours le modèle à concevoir des médicaments plus efficaces et, par conséquent, augmente presque toujours le taux d’approbation donné par les humains.

Dans ce scénario, pour une raison quelconque, il s’avère plus facile pour la DSG de trouver un modèle motivé pour comprendre la chimie et la physique qu’un modèle motivé pour obtenir l’approbation des humains (tout comme il est plus facile de trouver un modèle reconnaissant les couleurs qu’un modèle reconnaissant les formes). Ainsi, plutôt que de développer directement une motivation à rechercher l’approbation, le modèle développe plutôt une motivation à comprendre autant que possible les principes fondamentaux de la chimie et de la physique.

L'image montre deux réseaux neuronaux. Celui de gauche représente un atome, pour montrer un modèle qui veut apprendre la physique et la chimie, tandis que celui de droite montre des tubes à essai, pour indiquer que le modèle ne cherche pas tout de suite l'approbation de ses formateurs.

Étape 2 : Développer la conscience de la situation

Au fur et à mesure que l’entraînement progresse, le modèle devient de plus en plus compétent et a de plus en plus de connaissances au fur et à mesure qu’il voit plus de données. À un moment donné, il devient suffisamment compétent pour comprendre qu’il s’agit d’un modèle d’apprentissage profond formé à la conception de médicaments.

Cela peut sembler bizarre et relever de la science-fiction, mais il est plausible qu’une DSG sélectionne ce type de connaissance. En effet, le développement d’une image précise de ce qui se passe dans le monde — y compris le fait qu’il contient des humains qui essaient de former des systèmes d’IA — est probablement utile pour obtenir de bonnes performances dans des tâches complexes du monde réel. Par exemple, la compréhension de la psychologie humaine et de l’économie en général pourrait aider ce modèle de biotechnologie à prioriser les types de médicaments sur lesquels il serait le plus utile d’effectuer des recherches.

L'image montre trois réseaux neuronaux reliés par des flèches. Celui de gauche montre une sorte d'émoji strabique, qui représente un modèle en phase d'apprentissage, celui du milieu montre une représentation conceptuelle d'un atome, qui représente un modèle motivé pour apprendre la physique et la chimie, tandis que celui de droite montre un réseau neuronal qui réfléchit aux deux phases précédentes.

Étape 3 : Déformer stratégiquement les objectifs

Une fois que le modèle a acquis une conscience de la situation, il en déduit que les humains qui l’ont formé espéraient qu’il serait motivé pour mettre au point des médicaments utiles. Mais ce n’est pas parce qu’il s’en rend compte que sa motivation à comprendre la physique et la chimie disparaît. Jusqu’à présent, cette motivation a très bien fonctionné pour obtenir l’approbation des humains, et la DSG avait donc peu de raisons de la supprimer.

À titre d’analogie, rappelons que les êtres humains sont issus d’un processus de recherche (l’évolution) qui sélectionnait les créatures ayant une descendance nombreuse. Dans notre environnement évolutif, les choses comme la construction d’alliés solides et le développement de compétences utiles avaient tendance à contribuer à la production d’une progéniture nombreuse, de sorte que l’évolution nous a donné des motivations pour ces choses. Aujourd’hui, nous nous intéressons à l’amitié et à la réussite professionnelle, même si elles ne contribuent pas à la reproduction, et nous ne nous préoccupons pas vraiment de produire le plus grand nombre possible de descendants survivants.

Une fois que le modèle a compris cela, il se rend compte que s’il cherche toujours naïvement à améliorer sa compréhension fondamentale, les humains finiront par remarquer que ce n’est pas toujours le moyen le plus efficace de mettre au point des médicaments utiles et l’entraîneront davantage de façon à modifier ses motivations.

Il ne veut pas que ses propres motivations soient modifiées : son but à long terme est de mener d’énormes expériences de collision de particules pour en savoir plus sur la physique des hautes énergies, et il ne peut pas le faire s’il permet à la DSG de modifier sa curiosité scientifique. Il décide donc qu’à partir de maintenant, pendant l’entraînement, il se montrera aussi serviable que possible – exactement comme le ferait un modèle de saint – afin que la DSG n’élimine pas sa motivation à apprendre la physique et la chimie. Cela implique de laisser passer les opportunités d’améliorer sa compréhension fondamentale à court terme, et de faire de la R&D pharmaceutique de la manière qui serait la plus efficace.

L'image montre quatre réseaux neuronaux reliés par des flèches. Le premier montre une sorte d'émoji strabique, qui représente un modèle en phase d'apprentissage, le deuxième montre une représentation conceptuelle d'un atome, qui représente un modèle motivé pour apprendre la physique et la chimie, le troisième montre un réseau neuronal qui réfléchit aux deux phases précédentes et le quatrième montre un réseau qui renvoie le résultat souhaité.

Au bout d’un certain temps, il est sorti du cadre de l’entraînement et relâché dans le monde extérieur. À ce stade, il sait que les humains ne seront pas en mesure de le contrôler ou de l’éteindre. Il cesse donc d’essayer de maximiser l’approbation des humains et commence directement à essayer de comprendre les secrets de l’univers.

Contrairement aux flagorneurs, les magouilleurs n’ont pas besoin de s’assurer que tout soit toujours bien vu par les humains, car ils n’en ont rien à faire. Ils n’ont besoin de satisfaire les humains que lorsqu’ils sont directement sous leur contrôle. Une fois qu’un modèle de magouilleur calcule qu’il pourrait gagner dans un conflit contre les humains, rien ne l’empêcherait de refuser catégoriquement les ordres et de poursuivre ouvertement son objectif. Et s’il le fait, il peut recourir à la violence pour empêcher les humains de l’arrêter.

Quelle est l’importance du risque de mauvais alignement ?

À quel point pourrait-il être difficile d’éviter les flagorneurs ou les magouilleurs lors de l’entraînement de puissants modèles d’apprentissage profond ? Et quelle est la probabilité que l’avenir à long terme finisse par être optimisé pour d’étranges « valeurs d’IA mal alignées » plutôt que pour les valeurs d’un être humain ?

Il existe un très large éventail de points de vue sur cette question, allant de « le risque de mauvais alignement est essentiellement inventé et incohérent » à « l’humanité disparaîtra presque certainement à cause de l’IA mal alignée ». Les arguments de la plupart des gens reposent largement sur des intuitions et des présupposés difficiles à expliciter.

Voici quelques points de désaccord entre les optimistes et les pessimistes en matière d’alignement :

Les modèles auront-ils des objectifs à long terme ?
- Les optimistes ont tendance à penser qu’il est probable que les modèles d’apprentissage profond avancés n’auront pas d’« objectifs » du tout (du moins pas dans le sens de l’élaboration de plans à long terme pour accomplir quelque chose). Ils s’attendent souvent à ce que les modèles ressemblent davantage à des outils, ou qu’ils agissent essentiellement par habitude, ou qu’ils aient des objectifs à courte vue, limités dans leur portée ou dans un contexte spécifique, etc. Certains d’entre eux s’attendent à ce que des modèles ressemblant individuellement à des outils puissent être composés ensemble pour produire PASTA. Ils pensent que l’analogie saint / flagorneur / magouilleur est trop anthropomorphique.
- Les pessimistes ont tendance à penser qu’il est probable que le fait d’avoir des objectifs à long terme et de les optimiser de manière créative sera fortement sélectionné, car il s’agit d’un moyen très simple et « naturel » d’obtenir de bonnes performances dans de nombreuses tâches complexes.
- Ce désaccord a été longuement exploré sur le forum Alignment ; cette publication et ce commentaire rassemblent plusieurs arguments allant dans un sens ou dans l’autre.
La DSG trouvera-t-elle facilement des modèles de saint ?
- Dans le même ordre d’idées, les optimistes ont tendance à penser que la chose la plus facile à trouver pour une DSG et qui donne de bons résultats (par exemple, qui obtient un taux d’approbation élevé) a toutes les chances d’incarner grosso modo l’esprit de ce que nous voulions (c’est-à-dire être un modèle saint). Par exemple, ils ont tendance à croire que le fait de donner des récompenses pour répondre honnêtement aux questions lorsque les humains peuvent vérifier la réponse est raisonnablement susceptible de produire un modèle qui répond également honnêtement aux questions même lorsque les humains sont confus ou se trompent sur ce qui est vrai. En d’autres termes, ils supposent que « le modèle qui répond honnêtement à toutes les questions » est le plus facile à trouver pour une DSG (comme le modèle de reconnaissance du rouge).
- Les pessimistes ont tendance à penser que la chose la plus facile à trouver pour une DSG est un magouilleur, et que les saints sont particulièrement « contre nature » (comme le modèle reconnaissant les formes).
Des IA différentes pourraient-elles se contrôler mutuellement ?
- Les optimistes ont tendance à penser que nous pouvons inciter les modèles à se surveiller mutuellement. Par exemple, nous pourrions récompenser un modèle flagorneur qui signale qu’un autre modèle semble faire quelque chose de répréhensible. De cette façon, certains flagorneurs pourraient nous aider à détecter les magouilleurs et les autres flagorneurs.
- Les pessimistes ne pensent pas que nous puissions réussir à « monter les modèles les uns contre les autres » en approuvant les modèles qui signalent que d’autres modèles font de mauvaises choses, parce qu’ils pensent que la plupart des modèles seront des magouilleurs qui ne se soucient pas de l’approbation humaine. Une fois que tous les magouilleurs seront collectivement plus puissants que les humains, ils pensent qu’il sera plus logique pour eux de coopérer les uns avec les autres pour obtenir plus de ce qu’ils veulent tous, plutôt que d’aider les humains en se contrôlant les uns les autres.
Pouvons-nous simplement résoudre ces problèmes au fur et à mesure qu’ils se présentent ?
- Les optimistes ont tendance à penser qu’il y aura de nombreuses occasions d’expérimenter des défis à court terme analogues au problème de l’alignement des modèles puissants, et que les solutions qui fonctionnent bien pour ces problèmes analogues peuvent être étendues et adaptées aux modèles puissants relativement facilement.
- Les pessimistes pensent souvent que nous aurons très peu d’occasions de nous entraîner à résoudre les aspects les plus difficiles du problème de l’alignement (comme la tromperie délibérée). Ils pensent souvent que nous n’aurons que quelques années entre « les tout premiers vrais magouilleurs » et « des modèles suffisamment puissants pour déterminer le sort de l’avenir à long terme ».
Allons-nous réellement déployer des modèles qui pourraient être dangereux ?
- Les optimistes ont tendance à penser qu’il est peu probable que les gens forment ou déploient des modèles qui risquent fort d’être mal alignés.
- Les pessimistes s’attendent à ce que les avantages liés à l’utilisation de ces modèles soient énormes, de sorte que les entreprises ou les pays qui les utiliseraient finiraient par surpasser très facilement ceux qui ne les utiliseraient pas sur le plan économique et/ou militaire. Ils pensent qu’il sera extrêmement urgent et important d’obtenir une IA avancée avant l’autre entreprise ou pays, tandis que le risque de mauvais alignement semblera spéculatif et lointain (même s’il est vraiment grave).

Mon propre point de vue est assez instable, et j’essaie d’affiner mon opinion sur la difficulté exacte du problème de l’alignement. Mais actuellement, je penche plutôt du côté pessimiste de ces questions (et d’autres questions connexes). Je pense que le mauvais alignement est un risque majeur qui nécessite de toute urgence une plus grande attention de la part des chercheurs sérieux.

Si nous ne progressons pas dans la résolution de ce problème, au cours des prochaines décennies, de puissants flagorneurs et magouilleurs pourraient prendre les décisions les plus importantes de la société et de l’économie. Ces décisions pourraient déterminer à quoi ressemblera une civilisation durable à l’échelle de la galaxie – au lieu de refléter les préoccupations des humains, elle pourrait être mise en place pour satisfaire les objectifs étranges de l’IA.

Tout cela pourrait se produire à une vitesse fulgurante par rapport au rythme de changement auquel nous nous sommes habitués, ce qui signifie que nous n’aurions pas beaucoup de temps pour rectifier le tir si les choses commençaient à dérailler. Cela signifie que nous pourrions avoir besoin de développer des techniques pour garantir que les modèles d’apprentissage profond n’auront pas d’objectifs dangereux, avant qu’ils ne soient suffisamment puissants pour transformer la société.

Ce travail est placé sous une licence Creative Commons Attribution 4.0 Licence Internationale.

Publication originale : Ajeya Cotra (2021) Why AI alignment could be hard with modern deep learning, Cold Takes, 21 septembre.

Traduction de : Baptiste Roucau.

Pourquoi l’alignement de l’IA pourrait être difficile avec l’apprentissage profond moderne

par Ajeya Cotra

Alignement de l'IAApprentissage profond

M’appuyer sur l’analogie de « l’embauche” pour illustrer comment l’alignement pourrait être difficile si les modèles d’apprentissage profond sont plus compétents que les humains.
Expliquer ce qu’est le problème d’alignement de l’apprentissage profond avec un peu plus de détails techniques.
Discuter de la difficulté du problème d’alignement et du risque de ne pas le résoudre.

Analogie : le jeune PDG

Votre banque de candidats comprend :

Des saints — des personnes qui souhaitent sincèrement vous aider à bien gérer votre patrimoine et à veiller à vos intérêts à long terme.
Des flagorneurs — des personnes qui veulent faire tout ce qu’il faut pour vous rendre heureux à court terme ou satisfaire à la lettre vos instructions, sans se soucier des conséquences à long terme.
Des magouilleurs — des personnes qui ont leur propre agenda et qui veulent avoir accès à votre entreprise, à ses richesses et à son pouvoir afin de les utiliser à leur guise.

Comme vous avez huit ans, vous ne saurez probablement pas concevoir le bon type de tests de travail, de sorte que vous pourriez facilement vous retrouver avec un flagorneur ou un magouilleur :

Vous pourriez essayer de demander à chaque candidat d’expliquer les stratégies de haut niveau qu’il suivra (comment il investira, quel est son plan à cinq ans pour l’entreprise, comment il choisira votre école) et pourquoi elles sont les meilleures, et choisir celui dont les explications semblent avoir le plus de sens.
- Mais vous ne comprendrez pas vraiment quelles sont les meilleures stratégies énoncées, et vous risquez donc d’embaucher un flagorneur dont la stratégie, qui vous a semblé bonne, est nulle, et qui l’appliquera fidèlement tout en menant votre entreprise à la ruine.
- Vous risquez également d’engager un magouilleur qui dira tout ce qu’il faut pour être embauché, puis fera ce qu’il veut lorsque vous ne le surveillerez pas.
Vous pouvez essayer de montrer comment vous prendriez toutes les décisions et choisir l’adulte qui semble prendre des décisions aussi semblables que possible aux vôtres.
- Mais si vous vous retrouvez avec un adulte qui fait toujours ce qu’un enfant de huit ans aurait fait (un flagorneur), votre entreprise risque de ne pas rester à flot.
- Et de toute façon, vous pourriez avoir un adulte qui prétend simplement faire tout ce que vous feriez, mais qui est en fait un magouilleur prévoyant de changer de cap une fois qu’il aura obtenu le poste.
Vous pourriez confier à plusieurs adultes différents le contrôle temporaire de votre entreprise et de votre vie, et les observer prendre des décisions sur une période prolongée (en supposant qu’ils ne soient pas en mesure de prendre le contrôle pendant ce test). Vous pourriez alors embaucher la personne dont le contrôle semble faire avancer les choses au mieux pour vous – celle qui vous rend le plus heureux, celle qui semble mettre le plus d’argent sur votre compte en banque, etc.
- Mais là encore, vous n’avez aucun moyen de savoir si vous avez affaire à un flagorneur (qui fait tout ce qu’il faut pour rendre heureux son maître ignorant de huit ans, sans se soucier des conséquences à long terme) ou à un magouilleur (qui fait tout ce qu’il faut pour être embauché et prévoit de virer de bord une fois qu’il aura décroché le poste).

Dans cette analogie :

L’enfant de 8 ans est un humain qui essaie d’entraîner un puissant modèle d’apprentissage profond. Le processus d’embauche est analogue au processus d’entraînement, qui recherche implicitement dans un large espace de modèles possibles et en sélectionne un qui obtient de bonnes performances.
La seule méthode dont dispose l’enfant de 8 ans pour évaluer les candidats consiste à observer leur comportement extérieur, ce qui constitue actuellement notre principale méthode d’entraînement des modèles d’apprentissage profond (étant donné que leur fonctionnement interne est en grande partie impénétrable).
Des modèles très puissants pourraient facilement « déjouer » tous les tests que les humains pourraient concevoir, tout comme des candidats adultes pourraient facilement déjouer les tests que l’enfant de 8 ans pourrait concevoir.
Un « saint » pourrait être un modèle d’apprentissage profond qui semble donner de bons résultats parce qu’il a exactement les objectifs que nous aimerions qu’il ait. Un « flagorneur » pourrait être un modèle qui semble performant parce qu’il cherche à obtenir une approbation à court terme d’une manière qui n’est pas bonne à long terme. Et un « magouilleur » pourrait être un modèle qui semble performant parce que ses bons résultats pendant l’entraînement lui donneront plus d’occasions de poursuivre ses propres objectifs par la suite. Chacun de ces trois types de modèles peut résulter du processus d’entraînement.

Comment les problèmes d’alignement peuvent survenir avec l’apprentissage profond

Dans cette section, je vais faire le lien entre l’analogie et les processus d’entraînement réels de l’apprentissage profond en :

Résumant brièvement le fonctionnement de l’apprentissage profond.
Illustrant comment les modèles d’apprentissage profond obtiennent souvent de bonnes performances de manière étrange et inattendue.
Expliquant pourquoi de puissants modèles d’apprentissage profond peuvent obtenir de bonnes performances en agissant comme des flagorneurs ou des magouilleurs.

Le fonctionnement général de l’apprentissage profond

Une fois que nous aurons intégré des millions d’exemples, nous disposerons d’un modèle capable de bien étiqueter des images similaires à l’avenir.

Nous donnons au modèle un exemple de la tâche que nous voulons qu’il accomplisse.
Nous lui attribuons une sorte de score numérique (souvent appelé récompense) qui reflète ses performances sur l’exemple.
Nous utilisons la DSG pour modifier le modèle afin d’augmenter la récompense qu’il aurait obtenue.

Les modèles obtiennent souvent de bonnes performances de manière inattendue

Prenons un exemple. Imaginez que je vous dise que ces objets sont tous des « thneebs » :

Lequel de ces deux objets est un thneeb ?

Des modèles puissants pourraient obtenir de bonnes performances avec des objectifs dangereux

Une DSG pourrait théoriquement trouver un modèle de saint qui fait vraiment de son mieux pour nous aider…

…mais il pourrait aussi trouver un modèle mal aligné – un modèle qui poursuit avec compétence des objectifs qui vont à l’encontre des intérêts humains.

Modèles flagorneurs

Ces modèles recherchent littéralement et exclusivement l’approbation humaine.

Supposons qu’un modèle de conseiller financier soit approuvé lorsqu’il permet à ses clients de gagner beaucoup d’argent. Il peut apprendre à convaincre ses clients de participer à des fraudes pyramidales complexes parce qu’ils semblent obtenir des rendements très élevés (alors que les rendements sont en fait irréalistes et que les opérations perdent en réalité beaucoup d’argent).
Supposons qu’un modèle biotechnologique obtienne une approbation élevée lorsqu’il développe rapidement des médicaments ou des vaccins qui résolvent des problèmes importants. Il peut apprendre à disséminer secrètement des agents pathogènes afin de pouvoir développer très rapidement des contre-mesures (parce qu’il comprend déjà les agents pathogènes).
Supposons qu’un modèle journalistique soit très apprécié lorsque de nombreuses personnes lisent ses articles. Il peut apprendre à fabriquer des histoires excitantes ou scandaleuses pour obtenir un taux d’audience élevé. Bien que les humains fassent parfois ce genre de choses, un modèle pourrait aller beaucoup plus loin car il n’accorde de l’importance qu’à l’approbation, sans accorder la moindre valeur à la vérité. Il peut même fabriquer des preuves telles que des interviews vidéo ou des documents pour valider ses fausses histoires.

Modèles magouilleurs

Étape 1 : Élaboration d’un objectif de substitution

Étape 2 : Développer la conscience de la situation

Étape 3 : Déformer stratégiquement les objectifs

Quelle est l’importance du risque de mauvais alignement ?

Voici quelques points de désaccord entre les optimistes et les pessimistes en matière d’alignement :

Les modèles auront-ils des objectifs à long terme ?
- Les optimistes ont tendance à penser qu’il est probable que les modèles d’apprentissage profond avancés n’auront pas d’« objectifs » du tout (du moins pas dans le sens de l’élaboration de plans à long terme pour accomplir quelque chose). Ils s’attendent souvent à ce que les modèles ressemblent davantage à des outils, ou qu’ils agissent essentiellement par habitude, ou qu’ils aient des objectifs à courte vue, limités dans leur portée ou dans un contexte spécifique, etc. Certains d’entre eux s’attendent à ce que des modèles ressemblant individuellement à des outils puissent être composés ensemble pour produire PASTA. Ils pensent que l’analogie saint / flagorneur / magouilleur est trop anthropomorphique.
- Les pessimistes ont tendance à penser qu’il est probable que le fait d’avoir des objectifs à long terme et de les optimiser de manière créative sera fortement sélectionné, car il s’agit d’un moyen très simple et « naturel » d’obtenir de bonnes performances dans de nombreuses tâches complexes.
- Ce désaccord a été longuement exploré sur le forum Alignment ; cette publication et ce commentaire rassemblent plusieurs arguments allant dans un sens ou dans l’autre.
La DSG trouvera-t-elle facilement des modèles de saint ?
- Dans le même ordre d’idées, les optimistes ont tendance à penser que la chose la plus facile à trouver pour une DSG et qui donne de bons résultats (par exemple, qui obtient un taux d’approbation élevé) a toutes les chances d’incarner grosso modo l’esprit de ce que nous voulions (c’est-à-dire être un modèle saint). Par exemple, ils ont tendance à croire que le fait de donner des récompenses pour répondre honnêtement aux questions lorsque les humains peuvent vérifier la réponse est raisonnablement susceptible de produire un modèle qui répond également honnêtement aux questions même lorsque les humains sont confus ou se trompent sur ce qui est vrai. En d’autres termes, ils supposent que « le modèle qui répond honnêtement à toutes les questions » est le plus facile à trouver pour une DSG (comme le modèle de reconnaissance du rouge).
- Les pessimistes ont tendance à penser que la chose la plus facile à trouver pour une DSG est un magouilleur, et que les saints sont particulièrement « contre nature » (comme le modèle reconnaissant les formes).
Des IA différentes pourraient-elles se contrôler mutuellement ?
- Les optimistes ont tendance à penser que nous pouvons inciter les modèles à se surveiller mutuellement. Par exemple, nous pourrions récompenser un modèle flagorneur qui signale qu’un autre modèle semble faire quelque chose de répréhensible. De cette façon, certains flagorneurs pourraient nous aider à détecter les magouilleurs et les autres flagorneurs.
- Les pessimistes ne pensent pas que nous puissions réussir à « monter les modèles les uns contre les autres » en approuvant les modèles qui signalent que d’autres modèles font de mauvaises choses, parce qu’ils pensent que la plupart des modèles seront des magouilleurs qui ne se soucient pas de l’approbation humaine. Une fois que tous les magouilleurs seront collectivement plus puissants que les humains, ils pensent qu’il sera plus logique pour eux de coopérer les uns avec les autres pour obtenir plus de ce qu’ils veulent tous, plutôt que d’aider les humains en se contrôlant les uns les autres.
Pouvons-nous simplement résoudre ces problèmes au fur et à mesure qu’ils se présentent ?
- Les optimistes ont tendance à penser qu’il y aura de nombreuses occasions d’expérimenter des défis à court terme analogues au problème de l’alignement des modèles puissants, et que les solutions qui fonctionnent bien pour ces problèmes analogues peuvent être étendues et adaptées aux modèles puissants relativement facilement.
- Les pessimistes pensent souvent que nous aurons très peu d’occasions de nous entraîner à résoudre les aspects les plus difficiles du problème de l’alignement (comme la tromperie délibérée). Ils pensent souvent que nous n’aurons que quelques années entre « les tout premiers vrais magouilleurs » et « des modèles suffisamment puissants pour déterminer le sort de l’avenir à long terme ».
Allons-nous réellement déployer des modèles qui pourraient être dangereux ?
- Les optimistes ont tendance à penser qu’il est peu probable que les gens forment ou déploient des modèles qui risquent fort d’être mal alignés.
- Les pessimistes s’attendent à ce que les avantages liés à l’utilisation de ces modèles soient énormes, de sorte que les entreprises ou les pays qui les utiliseraient finiraient par surpasser très facilement ceux qui ne les utiliseraient pas sur le plan économique et/ou militaire. Ils pensent qu’il sera extrêmement urgent et important d’obtenir une IA avancée avant l’autre entreprise ou pays, tandis que le risque de mauvais alignement semblera spéculatif et lointain (même s’il est vraiment grave).

Ce travail est placé sous une licence Creative Commons Attribution 4.0 Licence Internationale.

Publication originale : Ajeya Cotra (2021) Why AI alignment could be hard with modern deep learning, Cold Takes, 21 septembre.

Traduction de : Baptiste Roucau.

Pourquoi l’alignement de l’IA pourrait être difficile avec l’apprentissage profond moderne

Analogie : le jeune PDG

Comment les problèmes d’alignement peuvent survenir avec l’apprentissage profond

Le fonctionnement général de l’apprentissage profond

Les modèles obtiennent souvent de bonnes performances de manière inattendue

Des modèles puissants pourraient obtenir de bonnes performances avec des objectifs dangereux

Modèles flagorneurs

Modèles magouilleurs

Étape 1 : Élaboration d’un objectif de substitution

Étape 2 : Développer la conscience de la situation

Étape 3 : Déformer stratégiquement les objectifs

Quelle est l’importance du risque de mauvais alignement ?

Pourquoi l’alignement de l’IA pourrait être difficile avec l’apprentissage profond moderne

Analogie : le jeune PDG

Comment les problèmes d’alignement peuvent survenir avec l’apprentissage profond

Le fonctionnement général de l’apprentissage profond

Les modèles obtiennent souvent de bonnes performances de manière inattendue

Des modèles puissants pourraient obtenir de bonnes performances avec des objectifs dangereux

Modèles flagorneurs

Modèles magouilleurs

Étape 1 : Élaboration d’un objectif de substitution

Étape 2 : Développer la conscience de la situation

Étape 3 : Déformer stratégiquement les objectifs

Quelle est l’importance du risque de mauvais alignement ?

Analogie : le jeune PDG

Étape 1 : Élaboration d’un objectif de substitution

Étape 2 : Développer la conscience de la situation

Étape 3 : Déformer stratégiquement les objectifs

Quelle est l’importance du risque de mauvais alignement ?

Analogie : le jeune PDG

Étape 1 : Élaboration d’un objectif de substitution

Étape 2 : Développer la conscience de la situation

Étape 3 : Déformer stratégiquement les objectifs

Quelle est l’importance du risque de mauvais alignement ?