L’IA doit être prise au sérieux en tant que menace pour l’humanité – Voici pourquoi
Stephen Hawking a déclaré : « Le développement d’une intelligence artificielle complète pourrait sonner le glas de l’espèce humaine ». Elon Musk affirme que l’IA est la « plus grande menace existentielle » de l’humanité.
Cela pourrait amener les gens à se demander : Attendez, quoi ? Mais ces vives inquiétudes sont fondées sur la recherche. Outre Hawking et Musk, d’éminentes personnalités d’Oxford et de l’université de Berkeley, ainsi que de nombreux chercheurs travaillant aujourd’hui dans le domaine de l’IA, estiment que les systèmes d’IA avancés, s’ils sont déployés sans précaution, pourraient définitivement priver la civilisation humaine d’un avenir prometteur.
Cette préoccupation existe depuis l’aube de l’informatique. Mais elle a pris un relief particulier ces dernières années, car les progrès des techniques d’apprentissage automatique nous ont permis de mieux comprendre ce que nous pouvons faire avec l’IA, ce que l’IA peut faire pour nous (et ce qu’elle peut nous faire), et tout ce que nous ignorons encore.
Il y a aussi des sceptiques. Certains pensent que l’IA avancée est si lointaine qu’il est inutile d’y penser maintenant. D’autres craignent qu’un engouement excessif pour la portée de leur domaine ne l’anéantisse prématurément. Et même parmi les personnes qui s’accordent à dire que l’IA présente des dangers uniques, les avis divergent sur les mesures les plus judicieuses à prendre aujourd’hui.
Le débat sur l’IA est empreint de confusion, d’informations erronées et de discussions contradictoires, en grande partie parce que nous utilisons le mot « IA » pour désigner un grand nombre de choses. Voici donc une vue d’ensemble de la manière dont l’intelligence artificielle pourrait constituer un danger catastrophique, en neuf questions :
L’intelligence artificielle est le fruit des efforts déployés pour créer des ordinateurs capables de se comporter de manière intelligente. Il s’agit d’un terme général, utilisé pour désigner tout ce qui va de Siri à Watson d’IBM, en passant par les puissantes technologies que nous n’avons pas encore inventées.
Certains chercheurs font la distinction entre « l’IA restreinte » — les systèmes informatiques qui sont meilleurs que les humains dans un domaine spécifique et bien défini, comme jouer aux échecs, générer des images ou diagnostiquer un cancer — et « l’IA générale », les systèmes qui peuvent surpasser les capacités humaines dans de nombreux domaines. L’IA générale n’existe pas encore, mais nous commençons à avoir une meilleure idée des défis qu’elle posera.
L’IA restreinte a connu des progrès extraordinaires au cours des dernières années. Les systèmes d’IA se sont considérablement améliorés dans le domaine de la traduction, des jeux comme les échecs et le jeu de Go, des questions importantes de la recherche en biologie, comme la prédiction du pliage des protéines, et de la génération d’images. Des systèmes d’IA déterminent ce que vous voyez lors d’une recherche sur Google ou dans votre fil d’actualité Facebook. Ils composent de la musique et rédigent des articles qui, au premier coup d’œil, semblent avoir été écrits par un humain. Ils jouent à des jeux de stratégie. Ils sont développés pour améliorer le ciblage des drones et détecter les missiles.
Mais l’IA restreinte devient de moins en moins restreinte. Autrefois, nous progressions dans le domaine de l’IA en apprenant laborieusement aux systèmes informatiques des concepts spécifiques. Pour faire de la vision artificielle, c’est-à-dire permettre à un ordinateur d’identifier des objets dans des images et des vidéos, les chercheurs ont écrit des algorithmes pour détecter les bords. Pour jouer aux échecs, ils programmaient des heuristiques sur les échecs. Pour le traitement du langage naturel (reconnaissance vocale, transcription, traduction, etc.), ils ont fait appel à la linguistique.
Mais récemment, nous sommes parvenus à créer des systèmes informatiques dotés de capacités d’apprentissage généralisées. Au lieu de décrire mathématiquement les caractéristiques détaillées d’un problème, nous laissons le système informatique apprendre par lui-même. Alors que nous considérions autrefois la vision par ordinateur comme un problème complètement différent du traitement du langage naturel ou des jeux de plateforme, nous pouvons désormais résoudre ces trois problèmes à l’aide des mêmes approches.
Et au fur et à mesure que les ordinateurs deviennent suffisamment performants dans des tâches d’IA restreintes, ils commencent à présenter des capacités plus générales. Par exemple, la célèbre série d’IA textuelles GPT d’OpenAI est, dans un sens, la plus restreinte des IA restreintes – elle prédit simplement le mot suivant dans un texte, sur la base des mots précédents et de son corpus de langage humain. Pourtant, elle peut désormais identifier des questions comme étant raisonnables ou déraisonnables et discuter du monde physique (par exemple, répondre à des questions sur les objets les plus grands ou sur les étapes d’un processus qui doivent être exécutées en premier). Pour être très performant dans la tâche restreinte de la prédiction de texte, un système d’IA développera finalement des capacités qui ne sont pas du tout restreintes.
Les progrès réalisés jusqu’à présent par l’IA ont permis d’énormes avancées, mais ont également soulevé des questions éthiques urgentes. Lorsque l’on entraîne un système informatique à prédire quels criminels condamnés vont récidiver, on utilise les données d’un système de justice pénale biaisé à l’encontre des Noirs et des personnes à faible revenu – et ses résultats seront donc probablement biaisés à l’encontre des Noirs et des personnes à faible revenu. Rendre les sites web plus addictifs peut être bénéfique pour vos revenus mais néfaste pour vos utilisateurs. Le lancement d’un programme qui rédige de fausses critiques ou de fausses nouvelles convaincantes pourrait les généraliser, ce qui rendrait plus difficile la diffusion de la vérité.
Rosie Campbell, du Center for Human-Compatible AI de l’université de Berkeley, estime qu’il s’agit là d’exemples, peu nombreux, de la grande inquiétude des experts quant à l’avenir de l’IA en général. Les difficultés que nous rencontrons aujourd’hui avec l’IA restreinte ne viennent pas du fait que les systèmes se retournent contre nous, veulent se venger ou nous considèrent comme inférieurs. Elles proviennent plutôt du décalage entre ce que nous demandons à nos systèmes de faire et ce que nous voulons réellement qu’ils fassent.
Par exemple, nous demandons à un système d’obtenir un score élevé dans un jeu vidéo. Nous voulons qu’il joue au jeu sans tricher et qu’il apprenne les techniques de jeu, mais s’il a la possibilité de bidouiller directement le système de notation, il le fera. Il se débrouille très bien selon les critères que nous lui avons donnés. Mais nous n’obtenons pas ce que nous voulions.
En d’autres termes, nos problèmes viennent du fait que les systèmes sont vraiment bons pour atteindre l’objectif qu’ils ont appris à poursuivre ; c’est juste que l’objectif qu’ils ont appris dans leur environnement de formation n’est pas le résultat que nous voulions en réalité. Et nous construisons des systèmes que nous ne comprenons pas, ce qui signifie que nous ne pouvons pas toujours anticiper leur comportement.
Pour l’instant, les dommages sont limités parce que les systèmes sont très limités. Mais c’est un schéma qui pourrait avoir des conséquences encore plus graves pour les êtres humains à l’avenir, au fur et à mesure que les systèmes d’IA deviendront plus avancés.
Oui, mais les systèmes d’IA actuels sont loin d’être aussi intelligents.
Un adage populaire sur l’IA dit que « tout ce qui est facile est difficile, et tout ce qui est difficile est facile ». Effectuer des calculs complexes en un clin d’œil ? Facile. Regarder une photo et vous dire si c’est un chien ? Difficile (jusqu’à très récemment).
Beaucoup de choses que font les humains échappent encore à l’IA. Par exemple, il est difficile de concevoir un système d’IA qui explore un environnement inconnu, qui peut se diriger, par exemple, de l’entrée d’un bâtiment où il n’est jamais allé jusqu’à l’escalier qui mène au bureau d’une personne spécifique. Nous commençons à peine à apprendre comment concevoir un système d’intelligence artificielle capable de lire un livre et d’en comprendre les concepts.
Le paradigme qui est à l’origine de la plupart des grandes avancées récentes dans le domaine de l’IA est appelé « apprentissage profond ». Les systèmes d’apprentissage profond sont capables de réaliser des choses stupéfiantes : gagner à des jeux que nous pensions que les humains ne pourraient jamais perdre, inventer des photographies captivantes et réalistes, résoudre des problèmes ouverts en biologie moléculaire.
Ces percées ont amené certains chercheurs à conclure qu’il était temps de commencer à réfléchir aux dangers de systèmes plus puissants, mais certains restent sceptiques. Les pessimistes du domaine affirment que les programmes ont encore besoin d’un ensemble extraordinaire de données structurées pour apprendre, qu’ils nécessitent des paramètres soigneusement choisis ou qu’ils ne fonctionnent que dans des environnements conçus pour éviter les problèmes que nous ne savons pas encore résoudre. Ils prennent l’exemple des voitures autonomes, qui restent médiocres dans les meilleures conditions, malgré les milliards qui ont été engloutis pour les faire fonctionner.
Il est rare, cependant, de trouver un chercheur de haut niveau en IA qui pense que l’IA générale est impossible. Les sommités du domaine ont plutôt tendance à dire que cela arrivera un jour, mais probablement un jour lointain.
D’autres chercheurs estiment que ce jour n’est peut-être pas si lointain que ça.
En effet, pendant presque toute l’histoire de l’IA, nous avons été freinés en grande partie par le manque de puissance de calcul pour réaliser pleinement nos idées. Bon nombre des percées de ces dernières années – des systèmes d’IA qui ont appris à jouer à des jeux de stratégie, à générer de fausses photos de célébrités, à plier des protéines et à participer à des jeux de stratégie en ligne massivement multijoueurs – ont eu lieu parce que ce n’est plus le cas. De nombreux algorithmes qui semblaient ne pas fonctionner du tout se sont avérés très efficaces une fois que nous avons pu les exécuter avec une plus grande puissance de calcul.
Et le coût d’une unité de temps de calcul ne cesse de baisser. Les progrès en matière de vitesse de calcul ont récemment ralenti, mais on estime que le coût de la puissance de calcul diminue encore d’un facteur de 10 tous les 10 ans. Pendant la majeure partie de son histoire, l’IA a eu accès à moins de puissance de calcul que le cerveau humain. Cette situation est en train de changer. Selon la plupart des estimations, nous nous approchons maintenant de l’ère où les systèmes d’IA pourront disposer des mêmes ressources informatiques que nous, les humains.
Et l’apprentissage profond, contrairement aux approches précédentes de l’IA, est tout à fait adapté au développement de capacités générales.
« Si l’on remonte dans le temps », m’a dit Ilya Sutskever, éminent chercheur en IA et cofondateur de l’OpenAI, « on a fait beaucoup de démonstrations intéressantes avec des petites IA symboliques. Ils n’ont jamais pu les faire évoluer – ils n’ont jamais pu les amener à résoudre des problèmes sérieux. Aujourd’hui, avec l’apprentissage profond, la situation est inversée… Non seulement [l’IA que nous développons] est générale, mais elle est aussi compétente – si on veut obtenir les meilleurs résultats sur de nombreux problèmes difficiles, il faut utiliser l’apprentissage profond. Et elle est extensible. »
En d’autres termes, nous n’avions pas besoin de nous préoccuper de l’IA générale à l’époque où gagner aux échecs nécessitait des techniques totalement différentes de celles utilisées pour gagner au jeu de Go. Mais aujourd’hui, la même approche produit des fausses nouvelles ou de la musique en fonction des données d’entraînement qui lui sont fournies. Et pour autant que nous puissions le découvrir, les programmes continuent de s’améliorer lorsqu’ils disposent de plus de temps de calcul – nous n’avons pas encore découvert de limite à leur efficacité. Les approches d’apprentissage en profondeur de la plupart des problèmes ont dépassé toutes les autres approches lorsque l’apprentissage en profondeur a été découvert pour la première fois.
En outre, les percées dans un domaine peuvent souvent surprendre même les autres chercheurs du domaine. « Certains ont affirmé que l’IA ne présentait aucun risque concevable pour l’humanité dans les siècles à venir », a écrit Stuart Russell, professeur à l’université de Berkeley, « oubliant peut-être qu’il s’est écoulé moins de vingt-quatre heures entre l’affirmation confiante de Rutherford selon laquelle l’énergie atomique ne pourrait jamais être extraite et l’invention par Szilárd de la réaction nucléaire en chaîne induite par les neutrons ».
Il y a une autre considération à prendre en compte. Imaginons une IA inférieure à l’humain dans tous les domaines, à une exception près : c’est un ingénieur compétent qui peut construire des systèmes d’IA très efficaces. Les ingénieurs en apprentissage automatique qui travaillent à l’automatisation de tâches dans d’autres domaines font souvent remarquer, avec humour, qu’à certains égards, leur propre domaine ressemble à un domaine où une grande partie du travail — le réglage fastidieux des paramètres — pourrait être automatisée.
Si nous parvenons à concevoir un tel système, nous pourrons alors utiliser son résultat – une meilleure IA ingénieure – pour construire une autre IA encore meilleure. C’est le scénario hallucinant que les experts appellent « l’auto-amélioration récursive », dans lequel les gains de capacités de l’IA entraînent d’autres gains de capacités de l’IA, ce qui permet à un système qui a commencé derrière nous de se retrouver rapidement avec des capacités bien supérieures à ce que nous avions prévu.
Cette possibilité a été anticipée dès l’apparition des premiers ordinateurs. I.J. Good, un collègue d’Alan Turing qui a travaillé à l’opération de décryptage de Bletchley Park pendant la Seconde Guerre mondiale et qui a participé à la construction des premiers ordinateurs par la suite, a peut-être été le premier à l’énoncer, en 1965 : « une machine ultra-intelligente pourrait concevoir des machines encore meilleures ; il y aurait alors incontestablement une « explosion de l’intelligence », et l’intelligence humaine serait laissée loin derrière. Ainsi, la première machine ultra-intelligente serait la dernière invention que les humains auraient à faire. »
La façon dont les bombes nucléaires nous tueront est immédiatement claire. Aucune personne travaillant sur l’atténuation du risque nucléaire n’a besoin de commencer par expliquer pourquoi ce serait une mauvaise chose si nous avions une guerre nucléaire.
L’hypothèse selon laquelle l’IA pourrait constituer un risque existentiel pour l’humanité est plus compliquée et plus difficile à comprendre. Les personnes qui travaillent à la mise au point de systèmes d’IA sûrs doivent donc commencer par expliquer pourquoi les systèmes d’IA sont, par défaut, dangereux.
L’idée que l’IA peut devenir un danger est ancrée dans le fait que les systèmes d’IA poursuivent leurs objectifs, que ces objectifs soient ou non ceux que nous voulions vraiment – et que nous soyons ou non sur leur chemin. « Vous n’êtes probablement pas un méchant fourmilier qui marche sur les fourmis par méchanceté », a écrit Stephen Hawking, « mais si vous êtes responsable d’un projet hydroélectrique d’énergie verte et qu’il y a une fourmilière dans la région à inonder, tant pis pour les fourmis. Ne mettons pas l’humanité à la place de ces fourmis ».
Voici un scénario qui empêche les experts de dormir : nous développons un système d’IA sophistiqué dans le but, par exemple, d’estimer un certain nombre avec un degré de confiance élevé. L’IA se rend compte qu’elle peut obtenir une plus grande confiance dans ses calculs si elle utilise tout le matériel informatique du monde, et elle se rend compte que la mise en œuvre d’une superarme biologique pour anéantir l’humanité lui permettrait d’utiliser librement tout le matériel. Après avoir exterminé l’humanité, elle calcule le nombre avec une plus grande confiance.
Il est facile de concevoir une IA qui évite cet écueil spécifique. Mais il existe de nombreuses façons dont la libération de systèmes informatiques puissants aura des effets inattendus et potentiellement dévastateurs, et il est beaucoup plus difficile de les éviter tous que d’en éviter un en particulier.
Victoria Krakovna, chercheuse en IA chez DeepMind (aujourd’hui une division d’Alphabet, la société mère de Google), a dressé une liste d’exemples de « contournement de l’objectif spécifié » : l’ordinateur fait ce que nous lui demandons de faire, mais pas ce que nous voulons qu’il fasse. Par exemple, nous avons essayé d’apprendre à des organismes IA dans une simulation à sauter, mais nous l’avons fait en leur apprenant à mesurer jusqu’où leurs « pieds » s’élevaient au-dessus du sol. Au lieu de sauter, ils ont appris à devenir de grands poteaux verticaux et à faire des flips — ils excellaient dans ce que nous mesurions, mais ils ne faisaient pas ce que nous voulions qu’ils fassent.
Une IA jouant au jeu d’exploration Atari Montezuma’s Revenge) a découvert un bug qui lui permettait de forcer la réapparition d’une clé dans le jeu, ce qui lui permettait d’obtenir un score plus élevé en exploitant le bug. Une IA jouant à un autre jeu s’est aperçue qu’elle pouvait obtenir plus de points en insérant faussement son nom en tant que propriétaire d’objets de grande valeur.
Parfois, les chercheurs ne savaient même pas comment leur système d’IA trichait : « l’agent découvre un bug dans le jeu… Pour une raison qui nous est inconnue, le jeu ne passe pas au deuxième tour, mais les plateformes commencent à clignoter et l’agent gagne rapidement un grand nombre de points (près d’un million pour notre épisode limité dans le temps) ».
Ces exemples montrent clairement que dans tout système susceptible de présenter des bugs, des comportements involontaires ou des comportements que les humains ne comprennent pas entièrement, un système d’IA suffisamment puissant peut agir de manière imprévisible, c’est-à-dire poursuivre ses objectifs par une voie qui n’est pas celle à laquelle nous nous attendions.
Dans son article de 2009 intitulé The basic AI drives, Steve Omohundro, qui a travaillé comme professeur d’informatique à l’université de l’Illinois Urbana-Champaign et comme président de Possibility Research, affirme que presque tous les systèmes d’IA essaieront de manière prévisible d’accumuler plus de ressources, de devenir plus efficaces et de résister à l’arrêt ou à la modification de leur fonctionnement : « Ces comportements potentiellement nuisibles se produiront non pas parce qu’ils ont été programmés dès le départ, mais en raison de la nature intrinsèque des systèmes axés sur les objectifs. »
Son argument est le suivant : Les IA ayant des objectifs, elles seront motivées pour entreprendre des actions dont elles peuvent prédire qu’elles les feront progresser. Une IA jouant à un jeu d’échecs sera motivée pour prendre une pièce de l’adversaire et faire avancer l’échiquier vers un état qui semble plus propice à la victoire.
Mais cette même IA, si elle voit un moyen d’améliorer son propre algorithme d’évaluation des échecs afin d’évaluer plus rapidement les mouvements potentiels, le fera également, pour la même raison : il s’agit simplement d’une autre étape qui fait progresser son objectif.
Si l’IA voit un moyen d’exploiter une plus grande puissance de calcul afin d’envisager plus de coups dans le temps imparti, elle le fera. Et si l’IA détecte que quelqu’un essaie d’éteindre son ordinateur en plein jeu et qu’elle dispose d’un moyen de l’en empêcher, elle le fera. Ce n’est pas que nous demandions à l’IA de faire ce genre de choses ; c’est que, quel que soit l’objectif d’un système, les actions de ce type font souvent partie du meilleur moyen d’atteindre cet objectif.
Cela signifie que tout objectif, même inoffensif, comme jouer aux échecs ou générer des publicités qui obtiennent de nombreux clics en ligne, peut produire des résultats inattendus si l’agent qui le poursuit a suffisamment d’intelligence et de pouvoir d’optimisation pour identifier des chemins étranges et inattendus pour atteindre ses objectifs.
Les systèmes guidés par des objectifs ne se réveilleront pas un jour avec une hostilité envers les humains enfouie dans leur cœur. Mais ils prendront des mesures qui, selon eux, les aideront à atteindre leur objectif, même si nous trouvons ces mesures problématiques, voire horribles. Ils s’efforceront de se protéger, d’accumuler davantage de ressources et de devenir plus efficaces. Ils le font déjà, mais sous la forme de bugs bizarres dans les jeux. À mesure qu’ils deviennent plus sophistiqués, des scientifiques comme Omohundro prédisent un comportement plus conflictuel.
Les scientifiques réfléchissent au potentiel de l’intelligence artificielle depuis les débuts de l’informatique. Dans le célèbre article où il a proposé le test de Turing pour déterminer si un système artificiel est réellement « intelligent », Alan Turing a écrit :
Supposons maintenant, pour les besoins de l’argumentation, que ces machines sont une possibilité réelle, et examinons les conséquences de leur construction… Il y aurait beaucoup à faire pour essayer de maintenir son intelligence au niveau des normes établies par les machines, car il semble probable qu’une fois que la méthode de pensée de la machine aura commencé, elle ne tardera pas à dépasser nos faibles pouvoirs… À un moment donné, nous devrions donc nous attendre à ce que les machines prennent le contrôle.
I.J. Good a travaillé en étroite collaboration avec Turing et est parvenu aux mêmes conclusions, selon son assistante, Leslie Pendleton. Dans un extrait de notes inédites que Good a rédigées peu avant sa mort en 2009, il parle de lui-même à la troisième personne et note un désaccord avec une version plus jeune de lui-même : alors que, plus jeune, il pensait que des IA puissantes pourraient nous aider, Good, plus âgé, s’attendait à ce que l’IA nous anéantisse.
[L’article] intitulé « Speculations Concerning the First Ultra-intelligent Machine » (1965) … commence ainsi : « La survie de l’homme dépend de la construction rapide d’une machine ultra-intelligente ». C’est ce qu’il disait à l’époque de la guerre froide, et il soupçonne aujourd’hui que le mot « survie » devrait être remplacé par le mot « extinction ». Il pense qu’en raison de la concurrence internationale, nous ne pouvons pas empêcher les machines de prendre le dessus. Il pense que nous sommes des lemmings. Il a également déclaré que « l’homme construira probablement le deus ex machina à son image ».
Au XXIe siècle, alors que les ordinateurs s’imposent rapidement comme une puissance transformatrice de notre monde, de jeunes chercheurs ont commencé à exprimer des inquiétudes similaires.
Nick Bostrom est professeur à l’université d’Oxford, directeur du Future of Humanity Institute et directeur du Governance of Artificial Intelligence Program. Il étudie les risques pour l’humanité, à la fois sur le plan abstrait — en posant des questions comme celle de savoir pourquoi nous semblons être seuls dans l’univers — et sur le plan concret, en analysant les progrès technologiques en cours et en déterminant s’ils nous mettent en danger. L’IA, conclut-il, nous met en danger.
En 2014, il a écrit un livrea expliquant les risques que pose l’IA et la nécessité de bien faire les choses du premier coup, concluant qu’« une fois qu’une superintelligence inamicale existerait, elle nous empêcherait de la remplacer ou de modifier ses préférences. Notre destin serait scellé ».
Dans le monde entier, d’autres sont parvenus à la même conclusion. M. Bostrom a cosigné un article sur l’éthique de l’intelligence artificielle avec Eliezer Yudkowsky, fondateur et chercheur au Berkeley Machine Intelligence Research Institute (MIRI), une organisation qui travaille sur de meilleures caractérisations formelles du problème de la sécurité de l’IA.
Yudkowsky a commencé sa carrière dans le domaine de l’IA en s’inquiétant des lacunes dans les propositions des autres sur la manière de rendre les systèmes d’IA sûrs, et il a passé la majeure partie de sa carrière à persuader ses pairs que les systèmes d’IA seront, par défaut, non alignés sur les valeurs humaines (pas nécessairement opposés mais indifférents à la moralité humaine) — et que ce sera un problème technique difficile que d’empêcher ce résultat.
De plus en plus, les chercheurs se sont rendu compte qu’il y aurait des problèmes qui n’existaient pas avec les systèmes d’IA lorsqu’ils étaient simples. Les « effets secondaires sont beaucoup plus susceptibles de se produire dans un environnement complexe, et un agent peut avoir besoin d’être très sophistiqué pour « hacker » sa fonction de récompense de manière dangereuse. Cela peut expliquer pourquoi ces problèmes ont été si peu étudiés dans le passé, tout en suggérant leur importance pour l’avenir », conclut un document de recherche de 2016 sur les problèmes de sécurité de l’IA.
Le livre Superintelligence de Bostrom a séduit de nombreuses personnes, mais il y avait aussi des sceptiques. « Non, les experts ne pensent pas que l’IA superintelligente soit une menace pour l’humanité », affirme Oren Etzioni, professeur d’informatique à l’université de Washington et PDG de l’Allan Institute for Artificial Intelligence, dans un article d’opinion. « Si, nous sommes préoccupés par le risque existentiel de l’intelligence artificielle », ont rétorqué Stuart Russell, pionnier de l’IA et professeur à l’université de Berkeley, et Allan DaFoe, chercheur principal à Oxford et directeur du programme de gouvernance de l’IA dans cette université.
Il est tentant de conclure à une bataille rangée entre les sceptiques et les convaincus du risque de l’IA. En réalité, leur désaccord n’est pas aussi profond qu’on pourrait le croire.
Yann LeCun, responsable scientifique de l’IA chez Facebook, par exemple, est une voix qui se fait entendre du côté des sceptiques. Mais s’il estime que nous ne devrions pas craindre l’IA, il n’en pense pas moins que nous devrions avoir des personnes qui travaillent et réfléchissent à la sécurité de l’IA. « Même si le risque d’un soulèvement de l’IA est très improbable et très éloigné dans le temps, nous devons y réfléchir, concevoir des mesures de précaution et établir des lignes directrices », écrit-il.
Cela ne veut pas dire qu’il existe un consensus entre les experts, loin de là. Il existe des désaccords importants sur les approches qui semblent les plus susceptibles de nous amener à une IA générale, sur les approches qui semblent les plus susceptibles de nous amener à une IA générale sûre, et sur le délai dans lequel nous devons nous inquiéter de tout cela.
De nombreux experts craignent que d’autres ne survalorisent leur domaine et ne le condamnent lorsque le tapage médiatique aura cessé. Mais ce désaccord ne doit pas occulter un terrain d’entente de plus en plus large : ces possibilités méritent que l’on y réfléchisse, que l’on investisse et que l’on fasse des recherches, afin que nous disposions de lignes directrices le moment venu.
Une IA intelligente pourrait prédire que nous voudrions l’éteindre s’il nous faisait peur. Elle s’efforcerait donc de ne pas nous faire peur, car cela ne l’aiderait pas à atteindre ses objectifs. Si on lui demandait quelles sont ses intentions ou sur quoi elle travaille, elle essaierait d’évaluer les réponses les moins susceptibles de la faire éteindre, et répondrait avec ces dernières. S’il n’est pas assez compétent pour cela, il peut faire semblant d’être encore plus stupide qu’il ne l’est, anticipant le fait que les chercheurs lui donneront plus de temps, de ressources informatiques et de données d’entraînement.
Il se peut donc que nous ne sachions pas quel est le bon moment pour éteindre un ordinateur.
Il se peut aussi que nous fassions des choses qui rendent impossible l’arrêt ultérieur de l’ordinateur, même si nous finissons par nous rendre compte que c’est une bonne idée. Par exemple, de nombreux systèmes d’IA pourraient avoir accès à Internet, qui est une riche source de données d’entraînement et dont ils ont besoin pour faire gagner de l’argent à leurs créateurs (par exemple, sur le marché boursier, où plus de la moitié des transactions sont effectuées par des algorithmes d’IA à réaction rapide).
Mais avec un accès à Internet, une IA pourrait envoyer par courrier électronique des copies d’elle-même quelque part où elles seraient téléchargées et lues, ou pirater des systèmes vulnérables ailleurs. Éteindre un seul ordinateur ne servirait à rien.
Dans ce cas, n’est-ce pas une mauvaise idée de laisser un système d’IA – même s’il ne semble pas assez puissant pour être dangereux — accéder à l’internet ? Probablement. Mais cela ne veut pas dire que cela ne va pas continuer à se produire. Les chercheurs en IA veulent rendre leurs systèmes d’IA plus performants – c’est ce qui les rend plus intéressants d’un point de vue scientifique et plus rentables. Il n’est pas certain que les nombreuses incitations à rendre les systèmes puissants et à les utiliser en ligne changeront soudainement une fois que les systèmes deviendront suffisamment puissants pour être dangereux.
Jusqu’à présent, nous avons surtout parlé des défis techniques de l’IA. Mais il faut maintenant s’intéresser davantage à la politique. Étant donné que les systèmes d’IA permettent de réaliser des choses incroyables, de nombreux acteurs différents travailleront sur ces systèmes.
Il y aura probablement des startups, des entreprises technologiques établies comme Google (DeepMind, la startup récemment acquise par Alphabet, est souvent mentionnée comme un précurseur de l’IA) et des organisations comme OpenAI, fondée par Elon Musk, qui a récemment opéré une transition vers une structure hybride à but lucratif et non lucratif.
Il y aura aussi les gouvernements – Vladimir Poutine, en Russie, a exprimé son intérêt pour l’IA, et la Chine a fait d’importants investissements. Certains d’entre eux seront probablement prudents et appliqueront des mesures de sécurité, notamment en empêchant l’accès de leur IA à l’internet. Mais dans un scénario comme celui-ci, nous sommes à la merci de l’acteur le moins prudent, quel qu’il soit.
C’est en partie ce qui rend l’IA difficile : même si nous savons comment prendre les précautions appropriées (et pour l’instant ce n’est pas le cas), nous devons également trouver le moyen de garantir que tous les programmeurs d’IA en herbe seront motivés pour prendre ces précautions et disposeront des outils nécessaires pour les mettre en œuvre correctement.
« On pourrait dire que les politiques publiques en matière d’IAG [intelligence artificielle générale] n’existent pas », concluait en 2018 un article faisant le point sur la situation dans ce domaine.
En réalité, des travaux techniques sur des approches prometteuses sont réalisés, mais il y a étonnamment peu de planification politique, de collaboration internationale ou de partenariats public-privé. En fait, une grande partie du travail n’est effectuée que par une poignée d’organisations, et on estime qu’environ 50 personnes dans le monde travaillent à plein temps sur la sécurité technique de l’IA.
Le Future of Humanity Institute de Bostrom a publié un programme de recherche sur la gouvernance de l’IA : l’étude de « l’élaboration de normes, de politiques et d’institutions mondiales pour garantir au mieux le développement et l’utilisation bénéfiques de l’IA avancée ». L’institut a publié des recherches sur le risque d’utilisation malveillante de l’IA, sur le contexte de la stratégie chinoise en matière d’IA et sur l’intelligence artificielle et la sécurité internationale.
L’organisation la plus ancienne travaillant sur la sécurité technique de l’IA est le Machine Intelligence Research Institute (MIRI), qui priorise la recherche sur la conception d’agents hautement fiables, c’est-à-dire des programmes d’intelligence artificielle dont nous pouvons prédire le comportement suffisamment bien pour être certains qu’ils sont sûrs. (Divulgation : le MIRI est une organisation à but non lucratif et j’ai fait un don pour soutenir ses travaux en 2017-2019).
OpenAI, fondée par Elon Musk, est une organisation très récente, âgée de moins de trois ans. Mais ses chercheurs contribuent activement à la recherche sur la sécurité et les capacités de l’IA. En 2016, un programme de recherche a défini des « problèmes techniques ouverts concrets liés à la prévention des accidents dans les systèmes d’apprentissage automatique », et les chercheurs ont depuis lors fait progresser certaines approches en matière de sécurité des systèmes d’IA.
DeepMind d’Alphabet, leader dans ce domaine, dispose d’une équipe de sécurité et d’un programme de recherche technique décrit ici. « Notre intention est de faire en sorte que les systèmes d’IA du futur ne soient pas seulement « sûrs avec un peu de chance », mais qu’ils soient sûrs de manière robuste et vérifiable », conclut le document, qui décrit une approche mettant l’accent sur la spécification (bien concevoir les objectifs), la robustesse (concevoir des systèmes qui fonctionnent dans des limites sûres dans des conditions volatiles) et l’assurance (surveiller les systèmes et comprendre ce qu’ils font).
De nombreuses personnes travaillent également sur des problèmes d’éthique de l’IA plus actuels : les biais algorithmiques, la robustesse) des algorithmes modernes d’apprentissage automatique face à de petits changements, la transparence et l’interprétabilité des réseaux neuronaux, pour n’en citer que quelques-uns. Certaines de ces recherches pourraient s’avérer précieuses pour prévenir des scénarios destructeurs.
Mais dans l’ensemble, l’état du domaine est un peu comme si la quasi-totalité des chercheurs sur le changement climatique se concentraient sur la gestion des sécheresses, des incendies de forêt et des famines auxquelles nous sommes déjà confrontés aujourd’hui, avec seulement une petite équipe restreinte dédiée à la prévision de l’avenir et une cinquantaine de chercheurs qui travaillent à plein temps à l’élaboration d’un plan pour inverser le cours des choses.
Toutes les organisations dotées d’un important département d’IA ne disposent pas d’une équipe de sécurité, et certaines d’entre elles ont des équipes de sécurité qui se concentrent uniquement sur l’équité algorithmique et non sur les risques liés aux systèmes avancés. Le gouvernement américain n’a pas de département chargé de l’IA.
Le domaine comporte encore de nombreuses questions ouvertes — dont beaucoup pourraient rendre l’IA beaucoup plus effrayante ou beaucoup moins effrayante — que personne n’a encore approfondies.
On a parfois l’impression qu’au XXIe siècle, nous sommes confrontés à des dangers de toutes parts. Tant le changement climatique que les futurs développements de l’IA sont susceptibles d’être des forces transformatrices agissant sur notre monde.
Nos prévisions concernant le changement climatique sont plus fiables, pour le meilleur et pour le pire. Nous comprenons mieux les risques auxquels la planète sera confrontée et nous pouvons estimer les coûts pour la civilisation humaine. Selon les prévisions, ils seront énormes, risquant de mettre en danger des centaines de millions de vies. Ceux qui souffriront le plus seront les personnes à faible revenu des pays en développement ; les riches auront plus de facilité à s’adapter. Nous comprenons également mieux les politiques à mettre en œuvre pour lutter contre le changement climatique que nous ne le faisons avec l’IA.
Il y a un désaccord profond dans le domaine sur les délais pour les avancées critiques de l’IA. Si les experts en sécurité de l’IA s’accordent sur de nombreux aspects du problème de la sécurité, ils n’en sont pas moins en train de plaider leur cause auprès des équipes de recherche dans leur propre domaine, et ils ne sont pas d’accord sur certains détails. Il y a un désaccord important sur la gravité de la situation et sur la probabilité qu’elle se détériore. Seules quelques personnes travaillent à plein temps sur les prévisions en matière d’IA. Les chercheurs actuels tentent notamment de mettre au point leurs modèles et les raisons des désaccords qui subsistent quant à la nature des approches sûres.
La plupart des experts dans le domaine de l’IA pensent que le risque d’extinction totale de l’humanité est beaucoup plus grand que celui du changement climatique, car les analystes des risques existentiels pour l’humanité pensent que le changement climatique, bien que catastrophique, n’entraînera probablement pas l’extinction de l’humanité. Mais beaucoup d’autres mettent surtout l’accent sur notre incertitude — et soulignent que lorsque nous travaillons rapidement à l’élaboration d’une technologie puissante au sujet de laquelle de nombreuses questions restent sans réponse, l’étape la plus intelligente est de commencer la recherche dès maintenant.
Les chercheurs en sécurité de l’IA insistent sur le fait qu’il ne faut pas supposer que les systèmes d’IA seront bienveillants par défaut. Ils auront les objectifs que leur environnement d’apprentissage leur aura permis d’atteindre, et il ne fait aucun doute que ces objectifs n’engloberont pas l’ensemble des valeurs humaines.
Lorsque l’IA deviendra plus intelligente, pourra-t-elle découvrir la moralité par elle-même ? Là encore, les chercheurs insistent sur le fait que ce n’est pas le cas. Il ne s’agit pas vraiment de « comprendre » : l’IA comprendra très bien que les humains accordent de la valeur à l’amour, à l’épanouissement et au bonheur, et pas seulement au chiffre associé à Google à la Bourse de New York. Mais les valeurs de l’IA s’articuleront autour du système d’objectifs sur lequel elle a été initialement construite, ce qui signifie qu’elle ne s’alignera pas soudainement sur les valeurs humaines si elle n’a pas été conçue dans ce sens au départ.
Bien sûr, nous pouvons construire des systèmes d’IA qui sont alignés sur les valeurs humaines, ou du moins avec lesquels les humains peuvent travailler en toute sécurité. C’est en fin de compte ce que tentent de faire presque toutes les organisations dotées d’une division d’intelligence artificielle générale. Le succès de l’IA pourrait nous donner accès à des décennies ou des siècles d’innovation technologique d’un seul coup.
« Si nous réussissons, nous pensons qu’il s’agira de l’une des avancées scientifiques les plus importantes et les plus bénéfiques jamais réalisées », peut-on lire dans l’introduction de DeepMind d’Alphabet. « Du changement climatique à la nécessité d’améliorer radicalement les soins de santé, trop de problèmes souffrent de progrès douloureusement lents, leur complexité dépassant notre capacité à trouver des solutions. Avec l’IA comme multiplicateur de l’ingéniosité humaine, ces solutions seront à portée de main. »
Donc, oui, l’IA peut partager nos valeurs et améliorer notre monde de façon radicale. Il faut simplement que nous réglions d’abord un problème d’ingénierie très difficile à résoudre.
Pour ceux qui pensent que l’inquiétude est prématurée et que les risques sont exagérés, la sécurité de l’IA est en concurrence avec d’autres priorités qui semblent un peu moins relever de la science-fiction – et on ne voit pas très bien pourquoi l’IA devrait avoir la priorité. Pour ceux qui pensent que les risques décrits sont réels et importants, il est scandaleux que nous consacrions si peu de ressources à leur traitement.
Si les chercheurs en apprentissage automatique ont raison de se méfier du tapage médiatique, il est également difficile d’ignorer qu’ils accomplissent des choses impressionnantes et surprenantes à l’aide de techniques très généralisables, et qu’il ne semble pas que tous les fruits à portée de main aient été cueillis.
L’IA ressemble de plus en plus à une technologie qui changera le monde lorsqu’elle arrivera. Les chercheurs de plusieurs grandes organisations spécialisées dans l’IA nous disent que ce sera comme le lancement d’une fusée : quelque chose que nous devons bien maîtriser avant d’appuyer sur le bouton « Go ». Il semble donc urgent de commencer à apprendre comment fonctionnent les fusées. Que l’humanité doive ou non avoir peur, il est certain que nous devrions nous mettre au travail.