Prévenir une catastrophe liée à l’intelligence artificielle
Pourquoi est-ce que ce sont les humains, et non les chimpanzés, qui contrôlent le destin du monde ?
L’humanité a façonné tous les recoins de notre planète. Ce n’est pas le cas des chimpanzés, pourtant très intelligents par rapport aux autres espèces animales non humaines.
C’est dû en grande majorité à l’intelligence humaine.a
Entreprises et gouvernements dépensent des milliards chaque année pour développer des systèmes d’intelligence artificielle. Au fur et à mesure que ces systèmes deviennent plus avancés, ils pourraient (à terme) dérober aux humains la première place sur le podium de l’intelligence sur Terre. Or comme on va le voir, ils gagnent du terrain. Rapidement.
Le temps exact qu’il faudra pour produire une intelligence artificielle supérieure à l’humain dans une majorité de tâches fait l’objet d’un débat tumultueux. Mais il semble que ce soit possible, et nous, à 80,000 Hours, pensons que ça se produira au cours de ce siècle.
Le fait que l’intelligence humaine pourrait être dépassée au cours de ce siècle n’est pas un argument rigoureux ou concluant pour dire que l’intelligence artificielle va être importante, ou bien qu’elle constitue une menace pour l’humanité. Il existe d’autres arguments plus rigoureux que nous détaillerons dans la suite de l’article.
Toutefois, il semble raisonnable de dire que le développement potentiel d’une intelligence qui rivalise avec la nôtre sur Terre, dans un avenir proche, devrait au minimum nous préoccuper.
Les systèmes que nous développons auront-ils des objectifs ? Si oui, quels seront ces objectifs ?
Appuieront-ils les initiatives de l’humanité pour faire le bien ? Ou bien risquons-nous de perdre le contrôle de notre avenir et de mettre fin à l’histoire de l’humanité ?
La réponse la plus honnête à ces questions est que nous ne savons pas.
Mais nous ne devrions pas nous contenter d’attendre, en croisant les doigts et en observant de loin. L’intelligence artificielle (IA) tout changer de manière radicale. Œuvrer à façonner son évolution pourrait donc être la chose la plus importante à faire.
Nous prévoyons des progrès considérables dans le domaine de l’IA au cours des prochaines décennies, peut-être même au point d’aboutir à des machines plus performantes que les humains dans de nombreuses tâches, voire dans toutes. Cette évolution peut présenter d’énormes avantages, notamment en contribuant à la résolution de problèmes mondiaux actuellement insolubles, mais elle peut aussi comporter de graves risques. Ces risques pourraient survenir accidentellement (par exemple si nous ne trouvons pas de solutions techniques aux préoccupations concernant la sûreté des systèmes d’IA) ou délibérément (par exemple si les systèmes d’IA aggravent les conflits géopolitiques). Nous pensons que des efforts supplémentaires doivent être déployés pour réduire ces risques.
Certains de ces risques liés à une IA avancée pourraient être existentiels — c’est-à-dire qu’ils pourraient entraîner l’extinction de l’humanité ou une perte de pouvoir sur notre propre destin tout aussi permanente et grave.b Les appréhensions concernant la manière dont cette technologie transformatrice pourrait être développée et intégrée dans notre société n’ont pas encore été traitées de manière satisfaisante, surtout quand on voit la vitesse à laquelle elle progresse. Trouver des réponses à ces préoccupations est une démarche largement négligée qui pourrait bien être soluble. Nous estimons qu’il y a environ 400 personnes dans le monde qui y travaillent directement.c Par conséquent, la possibilité d’une catastrophe liée à l’IA pourrait être le problème le plus pressant au monde — et la meilleure chose sur laquelle travailler pour ceux qui sont bien placés pour y contribuer.
Parmi les moyens prometteurs de travailler sur cette problématique, on compte : la recherche technique sur la manière de construire des systèmes d’IA sûrs ; la recherche stratégique sur les risques spécifiques que l’IA peut poser ; et la recherche politique sur la façon dont les entreprises et les gouvernements peuvent atténuer ces risques. Si des politiques pertinentes sont élaborées, nous aurons besoin de personnes pour les faire adopter et les appliquer. Il existe également de nombreuses possibilités d’avoir un impact important dans une variété de rôles complémentaires, tels que la gestion des opérations, le journalisme, gagner pour donner, et plus encore – dont certaines sont énumérés ci-dessous.
Nous pensons que ce problème est l’un des plus urgents au monde.
[Si ce problème était résolu, à quel point le monde deviendrait-il meilleur ? En savoir plus sur la notion d’ampleur.]
L’IA aura des répercussions diverses et peut apporter énormément de bienfaits. Mais nous sommes particulièrement préoccupés par la possibilité de retombées extrêmement négatives, notamment une catastrophe existentielle. Certains experts pensent que ce risque de catastrophe existentielle n’est que de 0,5 %, d’autres qu’il est supérieur à 50 % – une chance sur deux. Nous sommes disposés à accepter l’une ou l’autre de ces estimations (pour une discussion plus approfondie, voir la section Alors, quelle est la probabilité d’une catastrophe liée à l’IA ?). Je pense que le risque d’une catastrophe existentielle causée par l’intelligence artificielle au cours des 100 prochaines années est d’environ 1 %. Je suis parmi les employés de 80,000 Hours les moins inquiets sur le sujet : dans notre équipe, les estimations vont de 1 à 55 %, avec une médiane de 15 %.
[Quelle quantité de ressources est déjà consacrée à la lutte contre ce problème ? En savoir plus sur le caractère négligé.]
Environ 50 millions d’euros ont été consacrés à la réduction des risques catastrophiques liés à l’IA en 2020 – tandis que des milliards ont été dépensés pour faire progresser les capacités de l’IA.d Nous constatons certes une préoccupation croissante de la part des experts en IA, mais il n’y a toujours qu’environ 400 personnes au monde qui travaillent directement sur la prévention d’une catastrophe existentielle liée à l’IA (avec un intervalle de confiance de 90 % compris entre 200 et 1 000).e Parmi elles, il semble qu’environ deux tiers travaillent sur la recherche technique en matière de sûreté de l’IA, le reste étant réparti entre la recherche stratégique (et politique) et le lobbying.f
[Si nous doublions les efforts directs centrés sur ce problème, quelle fraction du problème pourrions-nous espérer résoudre ? En savoir plus sur le potentiel d’amélioration.]
Il semble difficile de progresser dans la prévention d’une catastrophe liée à l’IA, mais il existe de nombreuses pistes de recherche et le domaine est relativement récent. Nous pensons donc que le problème a un potentiel d’amélioration modéré, bien que nous restions très prudents — encore une fois, les évaluations du potentiel d’amélioration des risques liés à l’IA varient énormément.
Approfondig
Pourquoi pensons-nous que la réduction des risques liés à l’IA est l’une des questions les plus urgentes de notre époque ? En bref, nos raisons sont les suivantes :
Nous allons aborder chacun de ces points, puis nous examinerons les meilleurs contre-arguments, nous expliquerons les mesures concrètes que vous pouvez prendre pour aider et, enfin, nous présenterons quelques-unes des meilleures ressources disponibles pour en savoir plus sur ce domaine.
En mai 2023, des centaines de scientifiques éminents dans le domaine de l’IA, ainsi que d’autres personnalités, ont signé une déclaration affirmant que la réduction du risque d’extinction lié à l’IA devrait être une priorité mondiale.
Il est donc assez clair qu’au moins certains experts sont inquiets.
Mais à quel point le sont-ils ? Et s’agit-il seulement d’une opinion marginale ?
Nous avons examiné trois enquêtes menées auprès de chercheurs en IA ayant publié à NeurIPS et ICML (deux des plus prestigieuses conférences sur l’apprentissage automatique) — la première en 2016, la deuxième en 2019 et la troisième en 2022.j
Il est important de noter qu’il peut y avoir un biais de sélection considérable dans des enquêtes comme celle-ci. Par exemple, on pourrait penser que les chercheurs qui participent aux principales conférences sur l’IA sont plus susceptibles d’être optimistes à son sujet, car ils ont été pour ainsi dire « sélectionnés » pour penser que la recherche sur l’IA est bénéfique – autrement dit, s’ils ne le pensaient pas, ils ne seraient sans doute pas chercheurs en IA. Ou à l’inverse, on pourrait aussi penser que les chercheurs déjà préoccupés par l’IA sont plus susceptibles de répondre à une enquête portant sur ces préoccupations.k
Cela dit, voilà ce que nous avons constaté :
Dans les trois enquêtes, le chercheur médian pense que les probabilités que l’IA soit « extrêmement bénéfique » sont raisonnablement élevées : 20 % dans l’enquête de 2016, 20 % en 2019 et 10 % en 2022.l
Effectivement, les systèmes d’IA ont déjà des effets positifs considérables, par exemple dans le domaine des soins médicaux ou de la recherche universitaire.
Mais dans les trois enquêtes, le chercheur médian estime également que les chances que l’IA soit « extrêmement néfaste (par exemple, entraînant l’extinction de l’humanité) » sont faibles… mais certainement pas négligeables : 5 % de chances de conséquences extrêmement néfastes dans l’enquête de 2016, 2 % en 2019 et 5 % en 2022.m
Dans l’enquête de 2022, les participants ont été spécifiquement interrogés sur les risques de catastrophe existentielle causés par les futures évolutions de l’IA — et là encore, plus de la moitié des chercheurs estime que les risques de catastrophe existentielle sont supérieurs à 5 %.n
Les experts ne sont donc pas d’accord sur la question d’à quel point l’IA représente un risque existentiel – un type de menace qui a, selon nous, une importance morale considérable.
Cela correspond à notre interprétation de l’état de la recherche dans ce domaine. Trois des principaux laboratoires développant l’IA — DeepMind, Anthropic et OpenAI — ont aussi des équipes chargées de trouver des solutions aux enjeux de sûreté qui pourraient selon nous constituer une menace existentielle pour l’humanité, pour des raisons que nous exposons en détail ci-dessous.o
Il existe également plusieurs groupes de recherche universitaires (notamment au MIT, à Oxford, à Cambridge, à l’université Carnegie Mellon et à l’université de Berkeley) qui se concentrent sur ces mêmes problèmes techniques de sûreté de l’IA.p
Il est difficile de savoir quelle conclusion tirer de tout cela. Ces enquêtes démontrent néanmoins que la conviction qu’il existe un risque allant jusqu’à une catastrophe existentielle n’est pas un point de vue marginal parmi les experts.
Mais pourquoi nous joignons-nous au camp des inquiets ? Tout simplement parce qu’il y a des arguments convaincants pour justifier que l’IA puisse constituer une telle menace existentielle – des arguments que nous allons détailler ci-dessous.
Il est important de réaliser que même si de nombreux experts reconnaissent l’existence d’un problème, ça ne veut pas dire que « tout va bien, les experts sont sur le coup ». Dans l’ensemble, nous pensons que ce problème reste très négligé puisque seules 400 personnes à travers le monde travaillent directement dessus (plus d’informations à ce sujet ci-dessous).
Pendant ce temps, des milliards d’euros sont investis chaque année dans le développement de l’IA.q

Avant d’essayer de comprendre à quoi pourrait ressembler l’avenir de l’IA, il est utile de jeter un coup d’œil à ce qu’elle peut déjà faire.
Les techniques modernes d’IA font appel à l’apprentissage automatique (Machine Learning ou ML) : des modèles qui s’améliorent automatiquement grâce à l’apport de données. La forme la plus couramment utilisée de cette technique est connue sous le nom d’apprentissage profond, ou deep learning.
Aujourd’hui, les systèmes d’apprentissage automatique ne peuvent exécuter qu’une très petite partie des tâches que les humains peuvent accomplir, et (à quelques exceptions près) seulement dans des spécialités restreintes (comme jouer à un jeu particulier ou générer un type d’image particulier).
Cela dit, depuis que l’utilisation de l’apprentissage profond s’est répandue au milieu des années 2010, d’énormes progrès ont été réalisés. Voici une brève chronologie des avancées marquantes depuis 2019 :
Si vous êtes comme nous, vous avez été surpris par la complexité et l’ampleur des tâches que ces systèmes peuvent accomplir.
Si l’IA continue à progresser à ce rythme, il est clair qu’elle aura des répercussions importantes sur la société. L’automatisation des tâches rendra au minimum leur exécution moins coûteuse. Par conséquent, nous pourrions assister à une augmentation rapide de la croissance économique (peut-être même au niveau observé pendant la révolution industrielle).
Si nous sommes capables d’automatiser partiellement ou totalement le progrès scientifique, nous pourrons assister à des changements plus profonds dans la société et dans le domaine de la technologie.s
Et ça ne fait peut-être que commencer. Les ordinateurs pourraient finir par automatiser tout ce que les humains peuvent faire. En théorie, rien ne l’empêche. Pourquoi ? Parce qu’il semble bien qu’avec un niveau de puissance et de complexité suffisamment élevé, un ordinateur devrait être capable de simuler le cerveau humain. Ce serait un moyen d’automatiser tout ce que les humains peuvent faire (même si ce n’est pas la méthode la plus efficace pour ce faire).
Et comme on va le voir dans la section suivante, certains éléments indiquent qu’une automatisation poussée pourrait bien être possible en augmentant la capacité des techniques existantes.
Il y a trois choses qui sont cruciales pour construire l’IA par apprentissage automatique :
Nous avons parlé à Danny Hernandez, qui était (à l’époque) chercheur au sein de l’équipe d’anticipation d’OpenAI. Hernandez et son équipe ont examiné comment deux de ces paramètres (puissance de calcul et efficacité des algorithmes) évoluent dans le temps.
Ils ont constaté que, depuis 2012, la puissance de calcul utilisée pour entraîner les plus grands modèles d’IA a augmenté de façon exponentielle — doublant tous les 3,4 mois.
Autrement dit, depuis 2012, la puissance de calcul utilisée pour entraîner nos plus grands modèles en apprentissage automatique a été multipliée par plus d’un milliard.
Hernandez et son équipe ont également examiné la puissance de calcul nécessaire pour entraîner un réseau de neurones artificiel afin d’obtenir les mêmes performances qu’AlexNet (un ancien algorithme de classification d’images).
Ils ont constaté que la puissance de calcul nécessaire pour obtenir les mêmes performances a baissé de façon exponentielle, diminuant de moitié tous les 16 mois.
Ainsi, depuis 2012, la puissance de calcul nécessaire pour le même niveau de performance a été divisée par plus de 100. Si l’on ajoute à ça l’augmentation de la puissance de calcul utilisée, cela représente une croissance importante.t
Il est difficile de dire si ces tendances vont se poursuivre, mais elles témoignent des progrès incroyables réalisés au cours de la dernière décennie dans les possibilités offertes par l’apprentissage automatique.
En effet, il semble que l’augmentation de la taille des modèles (et de la puissance de calcul utilisée pour les entraîner) engendre un comportement de plus en plus sophistiqué. C’est ainsi que des entités comme GPT-3 sont capables d’effectuer des tâches pour lesquelles elles n’ont pas été spécifiquement entraînées.
Ces constatations ont conduit à l’hypothèse de la mise à niveau : il suffit de construire des réseaux de neurones de plus en plus grands pour obtenir une IA de plus en plus puissante, et cette tendance à l’augmentation des capacités pourrait aboutir à une IA de niveau humain et même au-delà.
Si cette hypothèse est correcte , nous pouvons tenter de prédire comment les capacités de la technologie de l’IA augmenteront au fil du temps simplement en observant à quelle vitesse nous augmentons la puissance de calcul disponible pour entraîner des modèles.
Mais comme on va le voir, ce n’est pas seulement l’hypothèse de la mise à niveau qui suggère que nous pourrions nous retrouver avec une IA extrêmement puissante assez rapidement — d’autres méthodes de prévision des progrès de l’IA arrivent à des conclusions similaires.
Il est difficile de prédire exactement quand nous développerons une IA capable de transformer radicalement la société (pour le meilleur ou pour le pire) — par exemple, en automatisant tout le travail humain ou en changeant radicalement la structure de la société.w Mais nous allons ici passer en revue quelques pistes.
L’une des options consiste à sonder les experts. Les données de l’enquête de 2019 auprès de 300 experts en IA indiquent qu’il y a 20 % de probabilité que l’intelligence des machines soit de niveau humain d’ici 2036 (ce qui serait en ce sens une vraie révolution), 50 % d’ici 2060 et 85 % d’ici 2100.x Il y a de nombreuses raisons de se méfier de ces estimations,y mais nous les prenons comme un point de données.
Ajeya Cotra (chercheuse à Open Philanthropy) a tenté de prévoir l’IA transformative en comparant l’apprentissage profond moderne au cerveau humain. L’apprentissage profond implique l’utilisation d’une énorme quantité de calcul pour former un modèle, avant que ce modèle ne soit capable d’effectuer une tâche. Il existe également une relation entre la puissance de calcul utilisée pour former un modèle et la puissance utilisée par le modèle lorsqu’il est en cours d’exécution. Et — si l’hypothèse de mise à niveau est correcte — nous devrions nous attendre à ce que les performances d’un modèle s’améliorent de manière prévisible à mesure que la puissance de calcul utilisée augmente. Cotra a donc utilisé diverses approches (y compris, par exemple, l’estimation de la puissance de calcul utilisée par le cerveau humain pour diverses tâches) pour estimer la puissance de calcul nécessaire à l’entraînement d’un modèle qui, une fois lancé, pourrait effectuer les tâches les plus difficiles que l’homme puisse accomplir. Elle a ensuite évalué à quel moment l’utilisation d’une telle puissance de calcul serait accessible.
Dans la mise à jour de 2022 sur les conclusions de son rapport, Cotra estime que la probabilité d’une IA transformative est de 35 % d’ici 2036, de 50 % d’ici 2040 et de 60 % d’ici 2050 — en précisant que ces prévisions ne sont pas stables.z
Tom Davidson (également chercheur à Open Philanthropy) a rédigé un rapport pour compléter le travail de Cotra. Il a tenté de déterminer quand nous pourrions nous attendre à voir émerger une IA transformative en se basant uniquement sur l’examen de divers types de recherches auxquelles une IA transformative pourrait ressembler (par exemple, le développement d’une technologie comme but ultime d’un domaine STIM, ou la confirmation de conjectures mathématiques difficiles), et sur le temps qu’il a fallu pour achever chacun de ces types de recherche dans le passé, moyennant une certaine quantité de financement et d’efforts de recherche.
Le rapport de Davidson estime que, sur la base de ces seules informations, on pourrait penser qu’il y a 8 % de chances que l’IA soit transformative d’ici 2036, 13 % d’ici 2060 et 20 % d’ici 2100. Toutefois, Davidson ne tient pas compte de la façon dont l’IA a progressé depuis le début des recherches dans les années 1950 et note qu’il est probable que les efforts que nous consacrons à la recherche sur l’IA augmenteront à mesure que l’IA deviendra de plus en plus pertinente pour notre économie. Par conséquent, Davidson considère que ces chiffres sont probablement des sous-estimations.
Holden Karnofsky, co-directeur général d’Open Philanthropy, a tenté de résumer les résultats de toutes ces approches. Il avance qu’il y a plus de 10 % de chances que nous assistions à une transformation de l’IA d’ici 2036 (!), 50 % d’ici 2060 et 66 % d’ici 2100. Et ces prévisions sont peut-être conservatrices, car elles n’intègrent pas les progrès jugés plus rapides que prévu qui ont eu lieu depuis que les estimations ont été faites.
| Méthode | Chance d’IA transformative d’ici 2036 | Chance d’IA transformative d’ici 2060 | Chance d’IA transformative d’ici 2100 |
|---|---|---|---|
| Enquête auprès d’experts (Zhang et al., 2022) | 20 % | 50 % | 85 % |
| Ancrages biologiques (Cotra, 2022) | 35 % | 60 % (d’ici 2050) | 80 % (selon le rapport de 2020) |
| Prémisses semi-informatives (Davidson, 2021) | 8 % | 13 % | 20 % |
| Estimation globale (Karnofsky, 2021) | 10 % | 50 % | 66 % |
Dans l’ensemble, l’IA semble progresser rapidement. De plus en plus d’argent et de talents sont investis dans ce domaine chaque année, et les modèles deviennent plus grands et plus efficaces.
Même si l’IA progressait plus lentement, elle nous inquiéterait — la plupart des arguments concernant les risques de l’IA (que nous aborderons plus loin) ne sont pas liés à cette progression rapide. Cependant, la rapidité de ces progrès récents accroît l’urgence de la problématique.
(Il est tout à fait possible que ces estimations soient erronées — nous expliquons ci-dessous comment la possibilité que nous ayons beaucoup de temps pour travailler sur ce problème est l’un des meilleurs arguments contre le caractère urgent de ce problème.)
Jusqu’à présent, nous avons affirmé que nous nous attendions à ce que l’IA soit une nouvelle technologie importante — et potentiellement transformative.
Nous avons également des raisons de penser que des systèmes d’IA transformatives de ce genre pourraient être développés au cours de ce siècle.
Nous allons maintenant aborder la question centrale : pourquoi pensons-nous que c’est si important ?
Il pourrait y avoir beaucoup de raisons. Si l’IA avancée est aussi transformative qu’elle semble pouvoir le devenir, il y aura de nombreuses conséquences importantes. Mais nous allons ici expliquer la question qui nous semble la plus préoccupante : Les systèmes d’IA pourraient présenter des risques par leur quête et leur prise de pouvoir.
Nous allons argumenter que :
En réfléchissant à chaque étape, je pense qu’il y a quelque chose comme 1 % de chances qu’une catastrophe existentielle résulte de systèmes d’IA en quête de pouvoir au cours de ce siècle. Il s’agit de mon estimation du risque, tout bien considéré, qui tient compte de l’argument en faveur du risque (qui est lui-même probabiliste), ainsi que des raisons pour lesquelles cet argument pourrait être erroné (dont certaines sont discutées ci-dessous). Je me situe donc dans la partie la moins inquiète des employés de 80 000 Hours, dont les opinions variaient de 1 à 55 %, avec une médiane de 15 %, dans notre dernière enquête auprès du personnel.
Nous allons faire valoir que les futurs systèmes présentant les trois propriétés suivantes pourraient constituer une menace particulièrement importante pour l’humanité :aa
Ce ne sont pas tous les systèmes d’IA qui ont des objectifs ou qui planifient pour atteindre ces objectifs. Mais certains systèmes (comme les systèmes d’IA jouant aux échecs) peuvent être compris de cette manière. Lorsque nous parlons d’IA en quête de pouvoir, nous songeons à des systèmes de planification relativement avancés capables de mettre en œuvre des projets visant à atteindre un ou plusieurs objectifs.
Un très bon système de planification doit avoir une compréhension suffisante du monde pour remarquer les obstacles et les opportunités qui peuvent aider ou entraver ses projets, et y répondre en conséquence. À l’instar de Carlsmith, nous appellerons cela la perception stratégique, car elle permet aux systèmes d’élaborer des stratégies de manière plus sophistiquée.
Pour que ces systèmes aient réellement un impact sur le monde, ils ne peuvent pas se contenter de planifier, ils doivent également être bons dans toutes les tâches spécifiques nécessaires à l’exécution de ces plans.
Puisque ce sont les systèmes qui tentent de déposséder l’humanité de son pouvoir qui nous inquiètent, nous sommes particulièrement préoccupés par les systèmes d’IA qui pourraient être meilleurs que les humains dans une ou plusieurs tâches qui confèrent du pouvoir aux gens quand elles sont bien effectuées dans le monde d’aujourd’hui.
Par exemple, les personnes très douées pour la persuasion et/ou la manipulation sont souvent capables d’accéder au pouvoir — une IA douée dans ces domaines pourrait donc également être capable d’accéder au pouvoir. D’autres exemples pourraient inclure le piratage d’autres systèmes, des activités de recherche scientifique et technique, ainsi que la stratégie commerciale, militaire ou politique.
Comme nous l’avons vu plus haut, des systèmes très bons pour effectuer des tâches spécifiques ont déjà été produits.
Nous avons également déjà produit des systèmes de planification rudimentaires, comme AlphaStar, qui joue habilement au jeu de stratégie Starcraft, et MuZero, qui joue aux échecs, au shogi et au Go.ab
Nous ne sommes pas sûrs que ces systèmes produisent des plans en vue d’atteindre des objectifs en soi, car nous ne savons pas exactement ce que signifie « avoir des objectifs ». Cependant, puisqu’ils planifient constamment de manière à atteindre des objectifs, il semblerait bien que, dans un certain sens, ils aient des objectifs.
De plus, certains systèmes existants semblent réellement se représenter des objectifs dans leurs réseaux de neurones.ac
Cela dit, la planification dans le monde réel (et non dans les jeux) est beaucoup plus complexe et, à ce jour, nous ne connaissons pas d’exemples incontestables de systèmes de planification orientés vers un objectif ou de systèmes présentant un haut degré de perception stratégique.
Mais, comme nous en avons discuté, nous nous attendons à voir de nouvelles avancées au cours de ce siècle. Et nous pensons que ces progrès sont susceptibles de produire des systèmes possédant les trois propriétés mentionnées ci-dessus.
Nous pensons ceci parce que nous considérons qu’il existe des incitatifs particulièrement forts (comme le profit) pour développer ce type de systèmes. En bref : parce que la capacité de planifier pour atteindre un objectif et d’exécuter ce plan semble être un moyen particulièrement puissant et généralisé d’agir sur le monde.
Faire aboutir les choses — qu’il s’agisse d’une entreprise qui vend des produits, d’une personne qui achète une maison ou d’un gouvernement qui élabore une politique — semble presque toujours nécessiter ces compétences. Un exemple serait d’assigner un objectif à un système puissant et d’attendre du système qu’il l’atteigne — plutôt que de devoir le guider à chaque étape du processus. Les systèmes de planification informatique semblent donc susceptibles d’être (économiquement et politiquement) extrêmement utiles.ae
Et si les systèmes sont extrêmement utiles, nous serons probablement incités à les construire. Par exemple, une IA qui pourrait planifier les actions d’une entreprise en se voyant attribuer l’objectif d’augmenter ses profits (c’est-à-dire une IA PDG) procurerait probablement une fortune substantielle aux personnes concernées — une incitation directe à produire ce type d’IA.
Par conséquent, si nous pouvons construire des systèmes dotés de ces propriétés (et d’après ce que nous savons, il semble que nous en serons capables), il est probable que nous le ferons.af
Il y a des raisons de penser que les systèmes d’IA de planification avancée de ce type seront mal alignés. C’est-à-dire qu’ils viseront à faire des choses que nous ne voulons pas qu’ils fassent.ag
Il existe de nombreuses raisons pour lesquelles les systèmes pourraient ne pas viser à faire exactement ce que nous voulons qu’ils fassent. D’une part, nous ne savons pas comment donner aux systèmes les objectifs précis que nous voulons atteindre en utilisant les techniques modernes d’apprentissage automatique (plus d’informations ici).ah
Nous allons nous concentrer spécifiquement sur certaines raisons pour lesquelles les systèmes peuvent, par défaut, être mal alignés de telle sorte qu’ils élaborent des plans présentant des risques pour la capacité de l’humanité à influencer le monde — même lorsque nous ne voulons pas perdre cette influence.ai
Que veut-on dire par « par défaut » ? Essentiellement, à moins que nous ne trouvions activement des solutions à certains problèmes (potentiellement assez difficiles), il semble que nous allons créer une IA dangereusement mal alignée. (Il y a des raisons pour lesquelles cela pourrait être faux — nous les aborderons plus tard.)
Voici l’argument central de cet article. Nous utiliserons les trois propriétés mentionnées précédemment : la capacité de planification, la perception stratégique et les capacités avancées.
Pour commencer, il est important de comprendre qu’un système de planification qui a un objectif développera également des « objectifs à valeur instrumentale » : des choses qui, si elles se produisent, faciliteront la réalisation d’un objectif global.
Nous utilisons tout le temps des objectifs à valeur instrumentale dans nos plans. Par exemple, un lycéen qui planifie sa carrière peut penser qu’entrer à l’université sera utile pour ses futures perspectives d’emploi. Dans ce cas, « entrer à l’université » serait un objectif à valeur instrumentale.
Un système de planification d’IA suffisamment avancé inclurait également des objectifs à valeur instrumentale dans ses plans généraux.
Si un système d’IA de planification possède également une perception stratégique suffisante, il sera capable d’identifier des faits du monde réel (y compris les éléments qui pourraient potentiellement faire obstacle à ses plans) et de planifier en fonction de ces faits. Ces faits incluraient surtout l’accès aux ressources (par exemple, l’argent, la puissance de calcul, l’influence) et de plus grandes capacités — c’est-à-dire des formes de pouvoir — ouvrant de nouvelles voies, plus efficaces, pour atteindre des objectifs.
Cela signifie que, par défaut, les systèmes d’IA de planification avancée auraient des objectifs à valeur instrumentale inquiétants :
Un point crucial est qu’une façon claire pour l’IA de s’assurer qu’elle continuera d’exister (et ne sera pas désactivée), et que ses objectifs ne seront jamais modifiés, serait de prendre le pouvoir sur les humains qui pourraient lui nuire (nous discutons ici de la façon dont les systèmes d’IA pourraient réellement être capables de faire cela).
De plus, les systèmes d’IA que nous envisageons ont des capacités avancées — ce qui signifie qu’ils peuvent effectuer une ou plusieurs tâches conférant aux gens un pouvoir important lorsqu’elles sont bien exécutées dans le monde d’aujourd’hui. Avec de telles capacités avancées, ces objectifs à valeur instrumentale ne seront pas hors de portée, et par conséquent, il semble que le système d’IA utiliserait ses capacités avancées pour acquérir du pouvoir dans le cadre de l’exécution d’un plan. Si nous ne voulons pas que les systèmes d’IA que nous créons nous privent de pouvoir, il s’agirait d’une forme de mauvais alignement particulièrement dangereuse.
Dans les scénarios les plus extrêmes, un système d’IA de planification doté de capacités suffisamment avancées pourrait réussir à nous déposséder complètement de notre pouvoir.
À titre de vérification intuitive (pas très rigoureuse) de cet argument, essayons de l’appliquer aux humains.
Les humains ont une variété d’objectifs. Pour beaucoup de ces objectifs, une certaine forme de quête du pouvoir est avantageuse : bien que tout le monde ne recherche pas le pouvoir, beaucoup de gens le font (sous forme de richesse ou de statut social ou politique), parce que c’est utile pour obtenir ce qu’ils veulent. Ce n’est pas catastrophique (en général !) car, en tant qu’êtres humains :
(Nous discuterons plus tard de la question de savoir si les humains sont véritablement en quête de pouvoir).
Une IA suffisamment avancée n’aurait pas ces limites.
Le but de tout ceci n’est pas de dire que tout système IA de planification avancée recherchera nécessairement du pouvoir. Il s’agit plutôt de souligner que, à moins de trouver un moyen de concevoir des systèmes qui ne présentent pas ce défaut, nous serons confrontés à un risque important.
Il semble tout à fait plausible que nous puissions créer un système d’IA qui ne soit pas mal aligné de cette manière, et ainsi empêcher toute dépossession de notre pouvoir. Voici quelques stratégies que nous pourrions adopter (ainsi que certaines raisons qui pourraient malheureusement les rendre difficiles à mettre en pratique) :al
Carlsmith donne deux raisons pour lesquelles faire cela semble particulièrement difficile.
Tout d’abord, pour les systèmes d’apprentissage automatique modernes, nous n’avons pas l’occasion d’énoncer explicitement les objectifs d’un système — au lieu de ça, nous récompensons (ou punissons) un système pendant son entraînement afin qu’il apprenne par lui-même. Cela soulève un certain nombre de difficultés, dont l’une est la mauvaise généralisation des objectifs. Les chercheurs ont découvert des exemples réels de systèmes qui semblent avoir appris à poursuivre un objectif dans l’environnement de leur entraînement , mais qui ne parviennent pas à généraliser cet objectif lorsqu’ils opèrent dans un nouvel environnement. Il est donc possible de penser avoir réussi à former un système d’IA à ne pas rechercher le pouvoir, mais que ce système le recherche quand même lorsqu’il est déployé dans le monde réel.1
Deuxièmement, lorsque nous spécifions un objectif à un système d’IA (ou, s’il est impossible de faire cela de manière explicite, lorsque nous trouvons des moyens de récompenser ou de punir un système pendant son entraînement), nous le faisons généralement en donnant au système un substitut par lequel les résultats peuvent être mesurés (par exemple, un retour humain positif sur la performance d’un système). Mais souvent, ces substituts ne fonctionnent pas tout à fait.2 En général, même si un substitut semble avoir une bonne corrélation avec des résultats positifs, on peut s’attendre à ce que ça ne soit pas forcément le cas quand on optimise ce substitut. (Les exemples ci-dessus concernant les politiciens, les entreprises et le bras du robot qui ne saisit pas réellement la balle en sont des illustrations). Nous examinons ici un exemple plus spécifique de la manière dont les problèmes liés aux substituts pourraient conduire à une catastrophe existentielle.
Pour en savoir plus sur la difficulté spécifique de contrôler les objectifs donnés aux réseaux de neurones profonds formés à l’aide de l’apprentissage auto-supervisé et de l’apprentissage par renforcement, nous recommandons l’article de Richard Ngo, chercheur en gouvernance à OpenAI, sur la façon dont les processus d’entraînement réalistes conduisent au développement d’objectifs mal alignés.
Mais pour qu’une stratégie fonctionne, il faudra parallèlement :
Conserver l’utilité des systèmes d’IA — et ainsi rester économiquement compétitif avec des systèmes moins sûrs. Puisque le contrôle des entrées et des capacités des systèmes d’IA aura clairement des coûts, il semble difficile de garantir que ces contrôles, même s’ils sont développés, seront réellement utilisés. Mais c’est également un problème pour le contrôle des objectifs d’un système. Par exemple, nous pourrions être en mesure de prévenir les comportements de quête de pouvoir en veillant à ce que les systèmes d’IA aillent d’abord faire vérifier les décisions qu’ils prennent par des humains. Mais ces systèmes pourraient être nettement plus lents et moins immédiatement utiles aux gens que les systèmes qui n’ont pas besoin d’effectuer ces vérifications. Par conséquent, il pourrait toujours y avoir une incitation à utiliser un système mal aligné mais d’emblée plus rapide et plus efficace (nous nous pencherons davantage sur les incitations dans la section suivante).
Continuer à agir à mesure que la capacité de planification et la perception stratégique des systèmes s’améliorent avec le temps. Certaines solutions apparemment simples (par exemple, essayer de donner à un système une longue liste de choses qu’il n’est pas autorisé à faire, comme voler de l’argent ou blesser physiquement des humains) échouent à mesure que les capacités de planification des systèmes augmentent. En effet, plus un système est capable d’élaborer des plans, plus il est susceptible d’identifier les failles ou les défaillances de la stratégie de sûreté — et par conséquent, plus le système est susceptible d’élaborer un plan qui implique une quête de pouvoir.
En fin de compte, en examinant l’état de la recherche sur ce sujet et en parlant à des experts dans le domaine, nous pensons qu’il n’existe actuellement aucun moyen connu de construire des systèmes d’IA alignés qui semblent susceptibles de remplir ces deux critères.
Donc c’est ça, l’argument principal. Il existe de nombreuses variantes de cet argument. Certains affirment que les systèmes d’IA pourraient progressivement façonner notre avenir via des formes d’influence plus subtiles qui pourraient néanmoins s’apparenter à une catastrophe existentielle ; d’autres soutiennent que la forme la plus probable de dépossession des humains est simplement de tuer tout le monde. Nous ne sommes pas sûrs de la manière dont une catastrophe serait la plus probable, mais nous avons essayé de formuler le nœud de l’argument , tel que nous le comprenons : l’IA présente un risque existentiel.
Il y a définitivement des raisons pour lesquelles cet argument pourrait ne pas être juste ! Nous passons en revue ci-dessous certaines des raisons qui nous semblent les plus solides. Mais dans l’ensemble, il nous semble très probable qu’il sera plus difficile de construire des systèmes qui ne recherchent pas le pouvoir de cette manière dangereuse que de construire des systèmes qui le recherchent, du moins pour certains types de systèmes d’IA à planification avancée.
Lorsque nous disons que nous sommes préoccupés par les catastrophes existentielles, nous ne sommes pas seulement préoccupés par les risques d’extinction. En effet, la source de notre préoccupation est ancrée dans le long-termisme : l’idée que la vie de toutes les générations futures compte, et qu’il est donc extrêmement important de protéger leurs intérêts.
Cela signifie que tout événement susceptible d’empêcher toutes les générations futures de vivre une vie remplie de tout ce qui, selon vous, donne de la valeur à la vie (qu’il s’agisse de bonheur, de justice, de beauté ou d’épanouissement général) compte comme une catastrophe existentielle.
Il semble extrêmement improbable que nous soyons capables de reprendre le contrôle d’un système qui réussirait à déposséder l’humanité de son pouvoir. Et par conséquent, l’intégralité de l’avenir — tout ce qui se passe pour la vie d’origine terrestre jusqu’à la fin des temps — serait déterminée par les objectifs de systèmes qui, bien que construits par nous, ne sont pas en phase, ou alignés, avec nous. Peut-être que ces objectifs créeront un avenir long et florissant, mais nous voyons peu de raisons d’être confiants.am
Cela ne veut pas dire que nous pensons qu’il n’y a pas de risque d’extinction de l’humanité lié à l’IA. En effet, nous pensons que l’extinction de l’humanité est un moyen très vraisemblable par lequel un système d’IA pourrait complètement et définitivement s’assurer que nous ne soyons jamais en mesure de reprendre le pouvoir.
Personne ne construirait ou n’utiliserait une IA mal alignée s’il savait que ça pourrait avoir des conséquences aussi terribles, non ?
Malheureusement, il y a au moins deux raisons pour lesquelles les gens pourraient créer puis déployer une IA mal alignée — et nous allons les passer en revue une par une :an
Imaginez qu’un groupe de chercheurs en phase de test essaie de déterminer si le système qu’ils ont construit est bien aligné. Nous avons affirmé qu’une IA de planification intelligente voudra améliorer ses capacités à effectuer des changements pour atteindre son objectif, et il est presque toujours plus facile de le faire si elle est déployée dans le monde réel, où un éventail d’actions beaucoup plus large est disponible. Par conséquent, toute IA mal alignée et suffisamment sophistiquée essaiera de comprendre ce que les chercheurs veulent qu’elle fasse et fera au moins semblant de le faire, trompant les chercheurs en leur faisant croire qu’elle est alignée. (Par exemple, un système d’apprentissage par renforcement pourrait être récompensé pour un comportement qu’il effectue en apparence pendant l’entraînement, indépendamment de ce qu’il fait réellement).
Avec un peu de chance, nous serons conscients de ce genre de comportement et capables de le détecter. Mais attraper une IA suffisamment avancée en flagrant délit de tromperie semble potentiellement plus difficile que d’attraper un humain en train de mentir, ce qui n’est pas toujours facile. Par exemple, un système d’IA trompeur suffisamment intelligent pourrait être capable de nous duper en nous faisant croire que nous avons résolu le problème de la tromperie de l’IA, même si ce n’est pas le cas.
Si les systèmes d’IA sont doués pour la tromperie et ont des capacités suffisamment avancées, une stratégie raisonnable pour un tel système pourrait être de tromper complètement les humains jusqu’à ce que le système ait un moyen de garantir qu’il peut surmonter toute résistance à ses objectifs.
On peut également s’attendre à ce que certaines personnes ayant la capacité de déployer une IA mal alignée se précipitent malgré les signes avant-coureurs de mauvais alignement qui apparaissent. Peut-être en raison d’une dynamique de compétition — où les personnes développant une IA veulent le faire avant tout le monde.
Par exemple, si vous développez une IA pour améliorer la stratégie militaire ou politique, elle est beaucoup plus utile si aucun de vos rivaux ne possède une IA aussi puissante.
Ces motivations s’appliquent même aux personnes qui tentent de construire une IA dans l’espoir de l’utiliser pour rendre le monde meilleur.
Par exemple, disons que vous avez passé des années et des années à rechercher et à développer un puissant système d’IA, et que tout ce que vous voulez, c’est l’utiliser pour rendre le monde meilleur. En simplifiant beaucoup les choses, disons qu’il y a deux possibilités :
Disons que vous pensez qu’il y a 90 % de chances que vous ayez réussi à construire une IA alignée. Mais la technologie se développant souvent à des vitesses similaires dans la société, il y a de fortes chances que quelqu’un d’autre développe aussi une IA puissante sous peu. Et vous pensez que ces personnes sont moins prudentes, ou moins altruistes, donc vous pensez que leur IA n’aura que 80 % de chances d’être alignée avec les bons objectifs, et posera 20 % de chances de catastrophe existentielle. Et ce n’est que si vous y arrivez en premier que votre IA plus bénéfique pourra être dominante. Par conséquent, vous pourriez décider d’aller de l’avant avec le déploiement de votre IA, en acceptant le risque de 10 %.
Jusqu’à présent, nous avons décrit ce qu’une grande partie des chercheurs dans ce domaineao considèrent comme le principal risque existentiel des progrès potentiels de l’IA, à savoir le risque que l’IA recherche le pouvoir pour atteindre ses objectifs.
Si nous parvenons à empêcher les comportements de quête de pouvoir, nous aurons considérablement réduit le risque existentiel.
Mais même si nous y parvenons, il reste des risques existentiels que l’IA pourrait poser.
Nous sommes préoccupés par le fait que les conflits entre grandes puissances pourraient également constituer une menace importante pour notre monde, et les progrès de l’IA semblent susceptibles de changer la nature de la guerre — par le biais d’armes autonomes létalesap ou de décisions automatisées.aq
Dans certains cas, la guerre entre grandes puissances pourrait constituer une menace existentielle — par exemple, si le conflit est nucléaire. Il est possible que l’IA exacerbe les risques d’escalade nucléaire, mais il y a aussi des raisons de penser que l’IA pourrait diminuer ce risque.ar
Enfin, si un seul acteur produit des systèmes d’IA particulièrement puissants, cela pourrait être considéré comme lui donnant un avantage stratégique décisif. Par exemple, les États-Unis pourraient produire une IA de planification suffisamment intelligente pour garantir que la Russie ou la Chine ne parviennent jamais à lancer une arme nucléaire. Cela pourrait inciter ses rivaux à lancer la première frappe avant que des plans développés par l’IA ne puissent être mis en œuvre.
Nous nous attendons à ce que les systèmes d’IA contribuent à augmenter le rythme du progrès scientifique.as
Si cette automatisation présente des avantages évidents — le développement rapide de nouveaux médicaments, par exemple — certaines formes de développement technologique peuvent représenter des menaces, y compris des menaces existentielles, pour l’humanité. Cela pourrait être par le biais de la biotechnologieat (voir notre article sur la prévention des pandémies catastrophiques pour en savoir plus) ou par une autre forme de technologie actuellement inconnue mais dangereuse.au
Un gouvernement autoritaire doté de l’IA pourrait complètement automatiser la surveillance et la répression de ses citoyens, ainsi qu’influencer considérablement les informations que les gens voient, rendant peut-être impossible la coordination d’une action contre un tel régime.av
Si cela devenait une forme de totalitarisme réellement stabilisée, cela pourrait rendre la vie des gens bien plus difficile pendant des périodes extrêmement longues, ce qui en fait un scénario possible résultant de l’IA particulièrement effrayant.
Nous sommes également préoccupés par les questions suivantes, bien que nous en sachions moins sur elles :
C’est une question à laquelle il est vraiment difficile de répondre.
Il n’y a pas d’exemples passés que nous pouvons utiliser pour déterminer la fréquence des catastrophes liées à l’IA.
Nous nous basons uniquement sur des arguments (comme ceux que nous avons donnés ci-dessus) et des données moins pertinentes comme l’histoire des avancées technologiques. Et nous ne sommes absolument pas certains que les arguments que nous avons présentés soient totalement corrects.
Considérez l’argument que nous avons donné plus tôt sur les dangers spécifiques de l’IA en quête de pouvoir, basé sur le rapport de Carlsmith. À la fin de celui-ci, Carlsmith donne quelques estimations approximatives des chances que chaque étape de son argumentation soit correcte (à condition que l’étape précédente le soit aussi) :
En multipliant ces chiffres, Carlsmith estime qu’il y a 5 % de chances que son argument soit juste et qu’il y ait une catastrophe existentielle due à une IA mal alignée en quête de pouvoir d’ici 2070. Lorsque nous avons interviewé Carlsmith, il a noté qu’au cours de l’année qui s’est écoulée entre la rédaction de son rapport et la publication de cet article, son estimation globale de la probabilité d’une catastrophe existentielle due à une IA en quête de pouvoir d’ici 2070 était passée à >10 %.aw
La probabilité globale d’une catastrophe existentielle due à l’IA est probablement plus élevée que ça, parce qu’il existe d’autres voies vers une catastrophe possible — comme celles discutées dans la section précédente — même si nous pensons que ces autres voies sont probablement beaucoup moins susceptibles de mener à une catastrophe existentielle.
Pour une autre estimation, dans The Precipice le philosophe et conseiller de 80 000 Hours Toby Ord a estimé que le risque de catastrophe existentielle d’ici 2120 est de 1 sur 6 (toutes causes confondues), et que 60 % de ce risque provient d’une IA mal alignée — ce qui donne un total de 10 % de risque de catastrophe existentielle due à une IA mal alignée d’ici 2120.
Une enquête menée en 2021 auprès de 44 chercheurs travaillant sur la réduction des risques existentiels liés à l’IA a révélé que l’estimation médiane du risque était de 32,5 % — la réponse la plus élevée donnée était 98 %, et la plus basse, 2 %.ax Il y a évidemment beaucoup de biais de sélection ici : les gens choisissent de se consacrer à la réduction des risques liés à l’IA parce qu’ils pensent que c’est exceptionnellement important, donc nous devrions nous attendre à ce que les estimations de cette enquête soient sensiblement plus élevées que celles provenant d’autres sources. Mais il y a clairement une grande incertitude quant à l’ampleur de ce risque, et une énorme variation dans les réponses.
Tous ces chiffres sont incroyablement élevés et inquiétants. Nous sommes loin d’être certains que tous les arguments soient corrects. Mais ce sont généralement les estimations les plus élevées du niveau de risque existentiel de tous les problèmes que nous avons examinés (comme les pandémies artificielles, les conflits entre grandes puissances, le changement climatique ou la guerre nucléaire). Et, comme nous l’avons expliqué, nous pensons que les arguments en faveur d’estimations aussi élevées du risque existentiel posé par l’IA sont convaincants — ce qui fait des risques liés à l’IA notre principal candidat au titre de problème le plus urgent auquel l’humanité est confrontée.
Cela dit, je pense qu’il y a des raisons pour lesquelles il est plus difficile de faire des suppositions sur les risques liés à l’IA que sur d’autres risques — et peut-être des raisons de penser que les estimations que nous avons citées ci-dessus sont systématiquement trop élevées.
Si je devais donner un chiffre, je dirais quelque chose comme 1 %. Ce chiffre tient compte de considérations à la fois favorables et défavorables à l’argument. Je suis moins inquiet que les autres membres du personnel de 80 000 heures — les opinions exprimées lors de notre dernière enquête variaient de 1 à 55 %, avec une médiane de 15 %.
Cela dit, les arguments en faveur d’estimations aussi élevées du risque existentiel posé par l’IA sont convaincants, ce qui fait des risques liés à l’IA l’un des problèmes les plus urgents auxquels l’humanité est confrontée.
Nous pensons que l’une des choses les plus importantes que vous puissiez faire serait de contribuer à réduire les risques les plus graves que pose l’IA.
Ce n’est pas seulement parce que nous pensons que ces risques sont élevés — c’est aussi parce que nous pensons qu’il y a des choses réelles que l’on peut faire pour réduire ces risques.
Nous voyons deux approches générales :
Dans les deux cas, il existe de nombreuses façons de contribuer. Nous les examinerons plus en détail ci-dessous, mais dans cette section, nous voulons illustrer le fait qu’il y a des choses que nous pouvons faire pour réduire ces risques.
Les avantages de l’IA transformative pourraient être énormes, et de nombreux acteurs différents sont impliqués (opérant dans différents pays), ce qui signifie qu’il sera probablement très difficile d’empêcher complètement son développement. (Il est également possible que ce ne soit même pas une bonne idée d’essayer d’empêcher ce développement — après tout, cela reviendrait à renoncer aux avantages en même temps qu’on prévient les risques).
Par conséquent, nous pensons qu’il est plus logique de se concentrer sur la nécessité de s’assurer que ce développement soit sécurisé — ce qui signifie qu’il a une forte probabilité d’éviter toutes les défaillances catastrophiques énumérées ci-dessus.
L’une des façons d’y parvenir est d’essayer de développer des solutions techniques pour empêcher le type de comportement de quête de pouvoir dont nous avons parlé plus haut — c’est ce qu’on appelle généralement faire de la recherche technique sur la sûreté de l’IA, parfois appelée simplement « sûreté de l’IA ».
Vous trouverez plus bas davantage d’informations sur la recherche en matière de sûreté de l’IA.
Une deuxième stratégie pour réduire les risques liés à l’IA consiste à façonner son développement par le biais de politiques, de l’élaboration de normes et d’autres mécanismes de gouvernance.
Une bonne gouvernance de l’IA peut contribuer au travail technique sur la sûreté, par exemple en produisant des accords de sûreté entre les entreprises, ou en aidant les chercheurs en sûreté talentueux du monde entier à se déplacer là où ils peuvent être le plus efficaces. Une bonne gouvernance de l’IA pourrait également aider à résoudre d’autres problèmes qui entraînent des risques, comme la dynamique de compétition.
Mais comme nous l’avons vu, même si nous parvenons à faire faire à l’IA ce que nous voulons (c’est-à-dire que nous l’« alignons »), nous pouvons toujours finir par choisir de lui faire faire quelque chose de mauvais ! Nous devons donc nous préoccuper des motivations non seulement des systèmes d’IA, mais aussi des acteurs humains qui les utilisent.
Pour en savoir plus sur la recherche en matière de gouvernance de l’IA et sa mise en œuvre, voir ci-dessous.
Nous estimons qu’il y a environ 400 personnes dans le monde qui travaillent directement à la réduction des chances d’une catastrophe existentielle liée à l’IA (avec un intervalle de confiance de 90 % compris entre 200 et 1 000). Parmi elles, environ trois quarts travaillent sur la recherche technique en matière de sûreté de l’IA, le reste étant réparti entre la recherche en stratégie (et autre gouvernance) et le lobbying.ay Nous pensons qu’il y a environ 800 personnes qui travaillent dans des rôles complémentaires, mais cette estimation est très incertaine.az
Dans The Precipice, Ord a estimé qu’entre 10 et 50 millions d’euros avaient été dépensés pour réduire les risques liés à l’IA en 2020.
Cela peut sembler beaucoup d’argent, mais nous dépensons quelque chose comme 1 000 fois ce montantba pour accélérer le développement de l’IA transformative via la recherche commerciale sur les capacités et l’ingénierie dans les grands laboratoires d’IA.
Pour comparer les 50 millions d’euros consacrés à la sûreté de l’IA en 2020 à d’autres risques bien connus, nous dépensons actuellement plusieurs centaines de milliards par an pour lutter contre le changement climatique.
Parce que ce domaine est si négligé et présente des enjeux si élevés, nous pensons que vous pourriez avoir un impact beaucoup plus important en travaillant sur les risques liés à l’IA qu’en travaillant sur de nombreux autres domaines. C’est pourquoi nos deux principaux parcours professionnels les plus recommandés pour faire une grande différence positive dans le monde sont la sûreté de l’IA et la recherche en matière de politiques d’IA et leur mise en œuvre.
Comme nous l’avons dit plus haut, nous ne sommes pas totalement sûrs que les arguments que nous avons présentés pour justifier que l’IA représente une menace existentielle soient justes. Bien que l’on pense toujours que le risque de catastrophe due à l’IA est suffisamment élevé pour mériter qu’un plus grand nombre de personnes mènent des carrières pour tenter d’empêcher une telle issue, nous voulons également être honnêtes quant aux arguments qui s’y opposent, afin que vous puissiez plus facilement vous faire votre propre opinion sur la question.
Nous aborderons ici les raisons les plus fortes (à notre avis) de penser que ce problème n’est pas particulièrement urgent. Dans la section suivante, nous aborderons certaines objections courantes qui (à notre avis) se défendent moins bien, et nous expliquerons pourquoi.
Plus nous avons de temps avant que l’IA transformative soit développée, moins il est urgent de travailler immédiatement sur les moyens de s’assurer qu’elle se déroule bien. En effet, les efforts des autres dans le futur pourraient être bien meilleurs ou plus pertinents que ceux que nous sommes en mesure de faire maintenant.
Et si nous mettons beaucoup de temps à créer une IA transformative, nous avons plus de temps pour trouver comment la rendre sûre. Le risque semble beaucoup plus élevé si les développeurs d’IA créent une IA transformative dans les prochaines décennies.
Il semble plausible que la première IA transformative ne soit pas basée sur les méthodes actuelles d’apprentissage profond. (AI Impacts a documenté les arguments selon lesquels les méthodes actuelles ne seront pas en mesure de produire une IA dotée d’une intelligence de niveau humain.) Ça pourrait signifier que certaines de nos recherches actuelles pourraient ne pas s’avérer utiles (et aussi — en fonction de la méthode qui finira par être utilisée — pourrait rendre les arguments en faveur du risque moins inquiétants).
Dans le même ordre d’idées, on peut s’attendre à ce que les progrès dans le développement de l’IA se fassent par à-coups. Par le passé, le domaine a connu des hivers de l’IA, des périodes au cours desquelles les investissements, l’intérêt et la recherche dans le domaine de l’IA ont été considérablement réduits. La probabilité d’un nouvel hiver de l’IA n’est pas claire, mais cette éventualité devrait nous permettre de mieux évaluer le temps qu’il nous faudra pour mettre au point une IA transformatrice. Cotra évoque la possibilité d’un hiver de l’IA dans la quatrième partie de son rapport sur les prévisions en matière d’IA transformatrice. De nouvelles contraintes sur le taux de croissance des capacités d’IA, telles que la disponibilité des données d’entraînement, pourraient également signifier qu’il y a plus de temps pour travailler sur ce sujet. (Cotra en parle ici).
Troisièmement, les estimations de Cotra, Kanfosky et Davidson sur la date de l’IA transformatrice que nous avons examinées précédemment ont été produites par des personnes qui s’attendaient déjà à ce que la prévention d’une catastrophe liée à l’IA soit l’un des problèmes les plus urgents du monde. Par conséquent, il existe un biais de sélection : les personnes qui pensent que l’IA transformatrice arrivera relativement vite sont également celles qui sont incitées à mener des enquêtes approfondies. (Cela dit, si les enquêtes elles-mêmes semblent solides, cet effet pourrait être assez faible.)
Enfin, aucune des estimations dont nous avons parlé précédemment n’essayait de prédire le moment où une catastrophe existentielle pourrait se produire. Elles cherchaient plutôt à savoir quand les systèmes d’IA pourraient être en mesure d’automatiser toutes les tâches que les humains peuvent accomplir, ou quand les systèmes d’IA pourraient transformer l’économie de manière significative. Il n’est pas du tout certain que les systèmes d’IA susceptibles de transformer l’économie soient les mêmes systèmes de planification avancée qui sont au cœur de l’argument selon lequel les systèmes d’IA pourraient chercher à s’emparer du pouvoir. Les systèmes de planification avancée semblent particulièrement utiles, et il y a donc au moins quelques raisons de penser que ce sont ces types de systèmes qui finiront par être construits. Mais même si les systèmes d’IA transformateurs prévus sont des systèmes de planification avancés, on ne sait pas exactement à quel point ces systèmes devraient être puissants pour représenter une menace — il est plus que plausible que les systèmes devraient être beaucoup plus puissants pour représenter une menace existentielle substantielle qu’ils ne devraient l’être pour transformer l’économie. Cela signifierait que toutes les estimations que nous avons examinées ci-dessus seraient des sous-estimations du temps dont nous disposons pour travailler sur ce problème.
Cela dit, il pourrait être extrêmement difficile de trouver des solutions techniques pour empêcher les comportements de quête de pouvoir — et si c’est le cas, il semble extrêmement utile de se concentrer sur la recherche de ces solutions dès maintenant.
Dans l’ensemble, nous pensons que l’IA transformative est suffisamment probable dans les 10 à 80 prochaines années pour qu’il vaille la peine (en termes de valeur espérée) de travailler sur cette question maintenant. Peut-être que les générations futures s’en chargeront, et que tout le travail que nous ferons maintenant sera vain — nous l’espérons ! Mais il n’est peut-être pas prudent de prendre ce risque.
Si la meilleure IA dont nous disposons s’améliore progressivement au fil du temps (au lieu que les capacités de l’IA restent relativement faibles pendant un certain temps, puis augmentent soudainement), nous finirons probablement par avoir des « signaux d’alarme » : nous remarquerons des formes de comportement mal aligné dans des systèmes relativement faibles et nous serons en mesure de les corriger avant qu’il ne soit trop tard.
Dans un tel scénario évolutif, on aura une meilleure idée de la forme que pourrait prendre une IA puissante (par exemple, si elle sera construite à l’aide des techniques actuelles d’apprentissage profond, ou quelque chose d’entièrement différent), ce qui pourrait considérablement aider la recherche sur la sûreté. La société dans son ensemble s’intéressera également davantage à cette question, à mesure que les risques de l’IA deviendront plus clairs.
Ainsi, si le développement progressif de l’IA semble plus probable, le risque semble plus faible.
Mais il n’est pas du tout certain que le développement de l’IA sera progressif, ou s’il l’est, suffisamment progressif pour que le risque soit sensiblement réduit. Et même si le développement de l’IA est progressif, il pourrait toujours y avoir des avantages significatifs à avoir des plans et des solutions techniques en place bien à l’avance. Donc, dans l’ensemble, nous pensons toujours qu’il est extrêmement utile de tenter de réduire le risque dès maintenant.
Si vous souhaitez en savoir plus, vous pouvez lire le travail d’AI Impacts sur les arguments pour et contre un progrès intermittent (c’est-à-dire non progressif) du développement de l’IA, ainsi que ceux de Toby Ord et Owen Cotton-Barratt sur les implications stratégiques d’un développement plus lent de l’IA.
Faire en sorte que quelque chose ait des objectifs alignés sur les objectifs ultimes des concepteurs humains et rendre ce quelque chose utile semblent être des problèmes très similaires. Si tel est le cas, peut-être que la nécessité de rendre l’IA utile nous poussera à ne produire que des IA alignées — auquel cas le problème de l’alignement sera probablement résolu par défaut.
Ben Garfinkel a donné quelques exemples à ce sujet lors de notre podcast :
Si nous devons de toute façon résoudre le problème de l’alignement pour créer des systèmes d’IA utiles, cela réduit considérablement les chances d’avoir des systèmes d’IA mal alignés mais toujours superficiellement utiles. La motivation à déployer une IA mal alignée serait donc beaucoup plus faible, ce qui réduirait le risque pour la société.
Cela dit, il y a encore des raisons de s’inquiéter. Par exemple, il semble que nous pourrions toujours être exposés à des problèmes de tromperie de l’IA.
Et, comme nous l’avons soutenu, l’alignement de l’IA n’est qu’une partie du problème global. Résoudre le problème de l’alignement n’est pas la même chose que d’éliminer complètement le risque existentiel que représente l’IA, puisque l’IA alignée pourrait également être utilisée à de mauvaises fins — notamment par des gouvernements autoritaires.
Comme pour de nombreux projets de recherche à leurs débuts, nous ignorons à quel point le problème de l’alignement — ou d’autres problèmes d’IA présentant des risques — est difficile à résoudre. Quelqu’un pourrait croire que l’IA présente des risques majeurs, mais être pessimiste quant à ce que des recherches ou des efforts politiques supplémentaires permettront d’accomplir, et ainsi décider de ne pas s’y consacrer.
C’est certainement une raison de se pencher potentiellement sur une autre question — la solubilité d’une question est un élément clé de la façon dont nous essayons de comparer les problèmes mondiaux. Par exemple, nous sommes également très préoccupés par les risques de pandémies, et ce problème peut être beaucoup plus facile à résoudre.
Cela dit, nous pensons qu’étant donné les enjeux, il pourrait être logique pour de nombreuses personnes de travailler à la réduction des risques liés à l’IA, même si vous pensez que les chances de réussite sont faibles. Il faudrait penser qu’il est extrêmement difficile de réduire les risques liés à l’IA pour en conclure qu’il est préférable de laisser les risques se matérialiser et les chances de catastrophe se réaliser.
À 80 000 Hours, nous voulons au moins continuer à essayer de contribuer à la sûreté de l’IA — par exemple, en rédigeant des revues comme celle-ci — même si les chances de succès semblent faibles (bien qu’en fait, nous soyons globalement assez optimistes).
Il y a quelques raisons de penser que l’argument central selon lequel tout système de planification avancé et stratégiquement avisé recherchera par défaut le pouvoir (présenté plus haut) n’est pas totalement juste.bb
Nous aimerions voir une analyse plus approfondie des aspects de la planification qui font l’objet d’incitations économiques, et si ces aspects semblent suffisants pour que l’argument de la quête de pouvoir fonctionne.
Grace a écrit davantage sur l’ambiguïté concernant « le degré d’orientation vers un objectif nécessaire pour provoquer un désastre ».
Richard Ngo, dans son analyse de ce que les gens entendent par « objectifs », souligne que vous n’obtiendrez un comportement de quête de pouvoir que si vous avez des objectifs qui signifient que le système peut réellement bénéficier de la quête de pouvoir. Ngo suggère que ces objectifs doivent être « à grande échelle ». (Certains ont affirmé que, par défaut, nous devrions attendre des systèmes d’IA qu’ils aient des objectifs à « court terme » qui ne conduiront pas à un comportement de quête de pouvoir.)
En effet, plus il est facile pour un système de prendre le pouvoir, plus les plans de quête de pouvoir ont des chances de réussir — un bon système de planification serait donc plus susceptible de les choisir. Cela suggère qu’il sera plus facile de créer accidentellement un système d’IA en quête de pouvoir au fur et à mesure que les capacités des systèmes augmenteront.
Il semble donc qu’il y ait encore des raisons de s’inquiéter, car les capacités des systèmes d’IA semblent augmenter rapidement. Il y a deux considérations à prendre en compte : si peu d’objectifs conduisent réellement à la quête de pouvoir, même pour des systèmes d’IA très performants, cela réduit considérablement le risque et donc l’importance du problème. Mais cela pourrait également accroître la solubilité du problème en démontrant que des solutions pourraient être faciles à trouver (par exemple, la solution consistant à ne jamais donner aux systèmes des objectifs à « grande échelle »), ce qui rendrait cet enjeu plus important pour les personnes qui travaillent sur ceci.
Mais nous pouvons trouver des exemples où l’utilité instrumentale des choses ne semble pas avoir d’incidence sur la difficulté à les empêcher. Considérez, par exemple, une voiture autonome qui ne peut se déplacer que si son moteur est allumé. Pour la plupart des objectifs possibles (à part allumer la radio ou quelque chose comme ça), il semble qu’il serait utile que la voiture puisse se déplacer, nous devrions donc nous attendre à ce qu’elle allume son moteur. Mais il semble également probable qu’il soit assez facile d’entraîner la voiture à garder son moteur éteint : nous pouvons simplement lui donner un retour négatif à l’allumage du moteur, même si nous avions également donné à la voiture d’autres objectifs. Imaginons maintenant que nous améliorions la voiture de manière à ce que sa vitesse maximale soit plus élevée — cela augmente considérablement le nombre de séquences d’actions possibles qui impliquent, dans un premier temps, d’allumer le moteur. Dans un certain sens, cela semble augmenter l’utilité instrumentale de la mise en marche du moteur — il y a plus d’actions possibles pour la voiture, une fois que son moteur est en marche, parce que l’éventail des vitesses possibles est plus élevé. (Il n’est pas certain que ce sens de « l’utilité instrumentale » soit le même que celui de l’argument en faveur du risque, bien qu’il semble assez similaire.) Mais il ne semble pas que cette augmentation de l’utilité instrumentale de l’allumage du moteur rende beaucoup plus difficile d’empêcher la voiture de s’allumer. Des exemples simples comme celui-ci jettent un certain doute sur l’idée que, juste parce qu’une action particulière est instrumentalement utile, nous ne serions pas en mesure de trouver des moyens de l’empêcher. (Pour en savoir plus sur cet exemple, voir la page 25 de la chronique de Garfinkel sur le rapport de Carlsmith.)
Toutefois, cela ne signifie pas que l’argument selon lequel il existe une incitation à rechercher le pouvoir est erroné. La plupart des gens sont confrontés à et agissent en fonction d’incitations à acquérir des formes d’influence via la richesse, le statut, les promotions, etc. Et nous pouvons expliquer l’observation selon laquelle les humains ne cherchent généralement pas à obtenir d’énormes quantités de pouvoir en observant que nous ne sommes généralement pas dans des circonstances qui font que l’effort en vaut la peine.
Par exemple, la plupart des gens n’essaient pas de créer des entreprises d’un milliard de dollars — vous ne réussirez probablement pas et cela vous coûtera beaucoup de temps et d’efforts. Mais vous irez quand même chercher un chèque d’un milliard de dollars de l’autre côté de la rue si l’occasion se présente.
L’absence de quête de pouvoir extrême chez de nombreux humains, ainsi que les incertitudes quant à ce que signifie réellement planifier pour atteindre des objectifs, suggèrent que l’argument que nous avons donné selon lequel les systèmes d’IA avancés rechercheront le pouvoir n’est peut-être pas tout à fait correct. Cela laisse également entrevoir l’idée que, en principe, la recherche d’alignement visant à prévenir la recherche de pouvoir chez les IA pourrait réussir. C’est une bonne nouvelle ! Mais pour l’instant, à moins d’espérer nous tromper sur l’existence du problème, nous ne savons pas comment empêcher ce comportement de quête de pouvoir.
Nous venons d’aborder les principales objections au travail sur le risque de l’IA que nous pensons être les plus convaincantes. Dans cette section, nous examinerons les objections qui nous semblent moins convaincantes, et nous donnerons quelques raisons pour expliquer notre point de vue.
On dit depuis les années 1950 qu’une intelligence artificielle plus intelligente que l’homme est à portée de main.
Mais ça n’est pas encore arrivé.
Une des raisons à cela pourrait être que ça n’arrivera jamais. Certains affirment que la production d’une intelligence générale artificielle est fondamentalement impossible. D’autres pensent que c’est possible, mais peu probable que cela se produise réellement, surtout pas avec les méthodes d’apprentissage profond actuelles.
Globalement, nous pensons que l’existence de l’intelligence humaine montre qu’il est possible en principe de créer une intelligence artificielle. Et, selon nous, la vitesse des progrès actuels n’aurait pas été prédit par ceux qui pensaient que nous ne développerions jamais une IA puissante et générale.
Mais surtout, l’idée selon laquelle il faut des systèmes d’IA intelligents totalement généralisés pour qu’il y ait un risque existentiel substantiel est une idée fausse et répandue.
L’argument que nous avons donné précédemment reposait sur le fait que les systèmes d’IA étaient aussi bons ou meilleurs que les humains dans un sous-ensemble de domaines : la planification, la perception stratégique et les domaines liés à la quête et au maintien du pouvoir. Donc, tant que vous pensez que toutes ces choses sont possibles, le risque demeure.
Et même si aucune IA ne possède toutes ces propriétés, il est toujours possible de se retrouver avec des systèmes d’IA « restreints » qui, ensemble, peuvent priver l’humanité de son pouvoir. Par exemple, nous pourrions avoir une IA de planification qui élabore des plans pour une entreprise, un système d’IA distinct qui mesure des données sur l’entreprise, un autre système d’IA qui tente d’évaluer les plans de la première IA en prédisant le profit que chacune d’elles générera, et d’autres systèmes d’IA qui exécutent ces plans (par exemple, en automatisant la construction et le fonctionnement des usines). Considéré dans son ensemble, ce système de plusieurs IA a la capacité d’élaborer et d’exécuter des plans pour atteindre un certain objectif, et possède potentiellement des capacités avancées dans des domaines qui l’aident à rechercher le pouvoir.
Il semble qu’il sera plus facile d’empêcher ces systèmes d’IA « restreints » d’accéder au pouvoir. Cela pourrait se produire si les compétences des IA, même combinées, ne permettent pas de planifier la réalisation d’objectifs, ou si l’aspect restreint réduit le risque que les systèmes développent des plans de quête de pouvoir (par exemple, si vous construisez des systèmes qui ne peuvent produire que des plans à très court terme). Il semble également que cela ouvre un autre point de faiblesse par lequel les humains peuvent intervenir si nécessaire : dans la coordination des différents systèmes.
Cela dit, le risque demeure , même pour les systèmes composés de nombreuses IA en interaction.
Ça pourrait simplement être très, très difficile.
Empêcher les gens et les ordinateurs d’exécuter des logiciels est déjà incroyablement difficile.
Pensez à la difficulté qu’il y aurait à fermer les services Web de Google. Les centres de données de Google comptent des millions de serveurs répartis sur 34 sites différents, dont beaucoup exécutent les mêmes séries de code. Et ces centres de données sont absolument cruciaux pour les bénéfices de Google, donc même si Google pourrait décider de fermer l’ensemble de ses activités, il ne le fera probablement pas.
Ou encore, pensez à la difficulté de se débarrasser des virus informatiques qui se propagent de manière autonome entre les ordinateurs du monde entier.
En fin de compte, nous pensons que tout système d’IA dangereux en quête de pouvoir cherchera des moyens de ne pas être désactivé, ce qui rend plus probable le fait que nous nous trouvions dans l’une de ces situations, plutôt que dans une situation où nous pouvons simplement débrancher une seule machine.
Cela dit, on doit absolument essayer de façonner l’avenir de l’IA de manière à pouvoir « débrancher » de puissants systèmes d’IA.
Il existe peut-être des moyens de développer des systèmes qui nous permettent de les éteindre. Mais pour l’instant, nous ne sommes pas sûrs de savoir comment le faire.
S’assurer qu’on peut éteindre les systèmes d’IA potentiellement dangereux pourrait être une mesure de sécurité développée par la recherche technique sur la sûreté de l’IA, ou cela pourrait être le résultat d’une gouvernance attentive de l’IA, comme la planification d’efforts coordonnés pour arrêter les logiciels autonomes une fois qu’ils sont en marche.
On pourrait (et on devrait !) certainement essayer.
Si nous pouvions réussir à « mettre en bac à sable » une IA avancée — c’est-à-dire la confiner dans un environnement d’entraînement sans accès au monde réel jusqu’à ce que nous soyons sûrs qu’elle ne fera pas de mal — cela aiderait énormément nos efforts pour atténuer les risques liés à l’IA.
Mais quelques éléments pourraient rendre la tâche difficile.
Pour commencer, il pourrait suffire d’une seule défaillance — comme une personne qui retire le bac à sable, ou une vulnérabilité de sécurité dans le bac à sable que nous n’avons pas remarquée — pour que le système d’IA commence à avoir un impact sur le monde réel.
De plus, cette solution n’évolue pas avec les capacités du système d’IA. Ceci est dû au fait que :
Donc, plus le système d’IA est dangereux, moins le recours au bac à sable est possible. C’est le contraire de ce que l’on attendrait d’une bonne solution de gestion du risque.
Pour certaines définitions de « vraiment intelligent » — par exemple, si la véritable intelligence inclut une compréhension profonde de la moralité et un désir d’être moral — ce serait probablement le cas.
Mais si c’est là votre définition de l’intelligence véritable, alors ce ne sont pas les systèmes véritablement intelligents qui posent un risque. Comme nous l’avons dit précédemment, ce sont les systèmes avancés qui peuvent planifier et avoir une perception stratégique qui posent des risques pour l’humanité.
Avec une perception stratégique suffisamment avancée, l’excellente compréhension du monde d’un système d’IA pourrait bien englober une excellente compréhension des convictions morales des gens. Mais ce n’est pas une raison suffisante pour penser qu’un tel système agirait de manière morale.
Par exemple, lorsque nous apprenons à connaître d’autres cultures ou systèmes moraux, cela ne crée pas nécessairement chez nous un désir de nous aligner sur leur moralité. Un historien spécialiste du sud des Etats-Unis d’avant la guerre de Sécession pourrait avoir une très bonne compréhension de la manière dont les propriétaires d’esclaves du 19ème siècle se justifiaient sur le plan moral, mais il serait très peu probable qu’il défende l’esclavage.
Les systèmes d’IA qui ont une excellente compréhension de la moralité humaine pourraient être encore plus dangereux que les IA qui n’ont pas une telle compréhension : le système d’IA pourrait agir moralement au début pour nous tromper et nous faire croire qu’il est sans danger.
L’intelligence artificielle actuelle présente des dangers certains.
Par exemple, les données utilisées pour former les réseaux de neurones contiennent souvent des préjugés cachés. Cela signifie que les systèmes d’IA peuvent apprendre ces préjugés — et cela peut conduire à des comportements racistes et sexistes.
Il existe également d’autres dangers. Notre discussion précédente sur la guerre nucléaire décrit une menace qui ne nécessite pas que les systèmes d’IA aient des capacités particulièrement avancées.
Selon nous, le fait qu’il existe également des risques liés aux systèmes actuels n’est pas une raison pour ne pas faire de la réduction des menaces existentielles de l’IA une priorité, si celles-ci sont suffisamment graves.
Comme nous l’avons évoqué, les systèmes du futur — pas nécessairement une super intelligence ou une intelligence totalement générale, mais des systèmes avancés dans leurs capacités de planification et de quête de pouvoir — semblent pouvoir constituer des menaces pour l’existence de l’ensemble de l’humanité. Et il semble également assez probable que nous fabriquerons de tels systèmes au cours de ce siècle.
De plus, une grande partie de la recherche technique sur la sûreté de l’IA est également pertinente pour résoudre les problèmes des systèmes IA existants. Par exemple, certaines recherches visent à s’assurer que les modèles d’apprentissage automatique font ce que nous voulons qu’ils fassent, et qu’ils continueront à le faire au fur et à mesure que leur taille et leurs capacités augmentent ; d’autres recherches tentent de comprendre comment et pourquoi les modèles existants décident et agissent comme ils le font.
Par conséquent, au moins dans le cas de la recherche technique, le choix entre se consacrer aux menaces actuelles et aux risques futurs peut ressembler davantage au choix entre s’assurer uniquement que les modèles actuels soient sûrs, ou plutôt trouver des moyens de s’assurer que les modèles actuels soient sécurisés et que ces moyens continueront également à fonctionner à mesure que les systèmes d’IA deviennent plus complexes et plus intelligents.
En fin de compte, nous disposons d’un temps limité dans nos carrières, donc choisir le problème sur lequel travailler pourrait être un moyen énorme d’augmenter votre impact. Lorsqu’il existe des menaces aussi importantes, il semble raisonnable que de nombreuses personnes se concentrent sur la résolution de ces pires éventualités.
Oui, elle le peut.
Les systèmes d’IA améliorent déjà les services de santé, mettent des voitures sans conducteur sur les routes et automatisent les tâches ménagères.
Et si nous sommes capables d’automatiser les progrès de la science et de la technologie, nous pourrons assister à des progrès économiques et scientifiques vraiment incroyables. L’IA pourrait probablement aider à résoudre bon nombre des problèmes les plus urgents du monde.
Mais ce n’est pas parce qu’une chose peut faire beaucoup de bien qu’elle ne peut pas aussi faire beaucoup de mal. L’IA est un exemple de technologie à double usage — une technologie qui peut être utilisée à la fois à des fins dangereuses et bénéfiques. Par exemple, des chercheurs ont réussi à faire en sorte qu’un modèle d’IA entraîné à développer des médicaments génère plutôt des conceptions d’armes biologiques.
Nous sommes enthousiastes et pleins d’espoir à l’idée de voir l’IA apporter de grands progrès. Mais nous voulons aussi travailler dur pour minimiser les risques immenses que posent les systèmes d’IA avancés.
Il est sans doute vrai que certaines personnes sont attirées par la réflexion sur la sûreté de l’IA parce qu’elles aiment les ordinateurs et la science-fiction — comme pour toute autre problématique, il y a des gens qui y travaillent non pas parce qu’ils pensent que c’est important, mais parce qu’ils pensent que c’est cool.
Mais, pour beaucoup de gens, travailler sur la sûreté de l’IA suscite une énorme réticence.
Pour moi, et pour beaucoup d’entre nous à 80 000 Hours, consacrer notre temps et nos ressources limitées à une cause qui affecte l’avenir à long terme — et donc ne pas consacrer ce temps aux terribles problèmes du monde actuel — est une chose incroyablement difficile à faire sur le plan émotionnel.
Mais nous avons progressivement étudié ces arguments (en essayant de déterminer comment nous pouvons faire le plus de bien), et au fil du temps, nous avons acquis plus d’expertise sur l’IA et sommes devenus plus préoccupés par le risque.
Nous pensons que le scepticisme est sain, et nous sommes loin d’être certains que ces arguments fonctionnent complètement. Ainsi, bien que cette suspicion soit définitivement une raison de creuser un peu plus, nous espérons qu’en fin de compte, cette inquiétude ne sera pas traitée comme une raison de moins prioriser ce qui pourrait bien être le problème le plus important de notre époque.
Le fait que quelque chose ressemble à de la science-fiction n’est pas une raison en soi pour l’écarter d’emblée. Il existe de nombreux exemples de choses mentionnées pour la première fois dans la science-fiction qui se sont ensuite réellement produites (cette liste d’inventions tirées de la science-fiction en contient de nombreux exemples).
Il existe même quelques cas de ce type, impliquant la technologie, qui constituent de véritables menaces existentielles aujourd’hui :
En outre, des universitaires et des chercheurs de haut niveau travaillent à la prévention de ces risques liés à l’IA — au MIT, à Cambridge, à Oxford, à l’UC Berkeley et ailleurs. Deux des meilleurs laboratoires d’IA au monde (DeepMind et OpenAI) ont des équipes explicitement dédiées au travail sur la sûreté de l’IA. Des chercheurs de ces organismes nous ont aidés à rédiger cet article.
Il est tout à fait possible que toutes ces personnes aient tort de s’inquiéter, mais le fait que tant de gens prennent cette menace au sérieux remet en cause l’idée qu’il s’agit simplement de science-fiction.
Il est raisonnable, lorsque vous entendez quelque chose qui ressemble à de la science-fiction, de vouloir l’étudier en profondeur avant d’agir en conséquence. Une fois l’enquête terminée, si les arguments semblent solides, le fait que cela ressemble à de la science-fiction n’est pas une raison pour l’écarter.
Nous ne savons jamais avec certitude ce qui va se passer dans le futur. Donc, malheureusement pour nous, si nous essayons d’avoir un impact positif sur le monde, cela signifie que nous devons toujours faire face à un certain degré d’incertitude.
Nous pensons également qu’il y a une différence importante entre garantir que vous avez fait du bien et faire de votre mieux. Pour atteindre le premier objectif, vous ne pouvez prendre aucun risque, ce qui pourrait vous faire manquer les meilleures occasions de faire le bien.
Lorsque vous êtes confronté à l’incertitude, il est logique de penser grosso modo à la valeur espérée de vos actions : la somme de toutes les conséquences potentielles, bonnes et mauvaises, de vos actions, pondérées par leur probabilité.
Étant donné que les enjeux sont si élevés et que les risques liés à l’IA ne sont pas si faibles, la valeur espérée de l’aide à la résolution de ce problème est élevée.
Nous comprenons que si vous travaillez sur la sûreté de l’IA, vous risquez de ne pas faire grand-chose alors que vous auriez pu faire beaucoup de bien en travaillant sur autre chose, simplement parce que le problème et nos idées actuelles sur ce qu’il faut faire sont si incertains.
Mais nous pensons que le monde se portera mieux si on décide que certains d’entre nous doivent travailler à la résolution de ce problème, afin qu’ensemble nous ayons la meilleure chance de réussir la transition vers un monde avec une IA avancée plutôt que de risquer une crise existentielle.
Et cela semble être une chose immensément précieuse à tenter.
L’extorsion de Pascal est un exercice philosophique — un détournement du célèbre pari de Pascal — où une personne prenant des décisions en utilisant des calculs de valeur espérée peut se faire exploiter par des affirmations selon lesquelles elle peut obtenir quelque chose d’extraordinairement bon (ou éviter quelque chose d’extraordinairement mauvais), moyennant une probabilité extrêmement faible de réussite.
L’histoire est la suivante : un agresseur vous arrête dans la rue et vous dit : « Donnez-moi votre portefeuille ou je vous jette un sort de torture, à vous et à tous ceux qui ont déjà vécu. » Vous ne pouvez pas exclure avec une probabilité de 100 % qu’il ne le fera pas — après tout, rien n’est sûr à 100 %. Et torturer toutes les personnes qui ont vécu est si grave que le fait d’éviter une probabilité aussi infime soit-elle vaut bien les 40 dollars de votre portefeuille ? Mais intuitivement, il semble que vous ne devriez pas donner votre portefeuille à quelqu’un juste parce qu’il vous menace de quelque chose de complètement invraisemblable.
Par analogie, vous pourriez vous inquiéter du fait que travailler sur la sûreté de l’IA signifie donner votre temps précieux pour éviter une chance infime de catastrophe. Travailler sur la réduction des risques liés à l’IA n’est pas gratuit — le coût d’opportunité est assez important, car cela signifie que vous renoncez à travailler sur d’autres choses extrêmement importantes, comme la réduction des risques de pandémies ou la fin de l’élevage industriel.
Mais voici le problème : bien qu’il y ait beaucoup de valeur en jeu — peut-être la vie de toutes les personnes en vie aujourd’hui, et l’intégralité de l’avenir de l’humanité — la probabilité que vous puissiez faire une différence en travaillant à la réduction des risques liés à l’IA n’est pas assez faible pour que cet argument s’applique.
Nous serions ravis que la probabilité d’une catastrophe liée à l’IA soit aussi minime.
Nous pensons plutôt que la probabilité d’une telle catastrophe (environ 10 % ce siècle, selon nous) est beaucoup, beaucoup plus grande que les choses que les gens essaient de prévenir tout le temps — comme les accidents d’avion mortels, qui se produisent dans 0,00002 % des vols..
Ce qui compte vraiment, cependant, c’est la mesure dans laquelle votre travail peut réduire la probabilité d’une catastrophe.
Voyons comment travailler à la réduction des risques liés à l’IA peut réduire ces risques. Par exemple, si :
Alors, chaque personne impliquée a une part de 0,0006 point de pourcentage dans la prévention de cette catastrophe.
D’autres façons d’agir de manière altruiste impliquent des probabilités de taille similaire.
Les chances qu’un militant bénévole fasse basculer une élection présidentielle américaine se situent entre 0,001 % et 0,00001 %. Mais vous pouvez quand même justifier le fait de vous investir dans une campagne par l’impact important que vous pensez avoir sur le monde en cas de victoire de votre candidat préféré.
Vos chances de succès sont encore plus faibles pour des choses comme réussir à radicalement réformer les institutions politiques, ou travailler sur des recherches scientifiques très fondamentales pour acquérir des connaissances qui pourraient un jour aider à guérir le cancer.
Dans l’ensemble, en tant que société, nous pourrions être en mesure de réduire les chances d’une catastrophe liée à l’IA de 10 % (ou plus) à près de zéro — c’est clairement un avantage pour un groupe de personnes, donc ça doit aussi en valoir la peine pour les individus.
Ne pas faire de science fondamentale parce que chaque chercheur a peu de chances de faire la prochaine grande découverte, ou ne pas faire de maintien de la paix parce qu’une seule personne a peu de chances d’empêcher la Troisième Guerre mondiale n’a pas vraiment de sens. En tant que société, nous avons besoin de personnes travaillant sur ces grands enjeux — et peut-être pouvez-vous être l’une d’entre elles.
Comme nous l’avons mentionné ci-dessus, nous connaissons deux méthodes principales pour aider à réduire les risques existentiels de l’IA :
La meilleure façon d’aider serait de poursuivre une carrière dans l’un de ces domaines, ou dans un domaine complémentaire.
La première étape consiste à en apprendre beaucoup plus sur les technologies, les problèmes et les solutions possibles. Nous avons rassemblé ici quelques listes de nos ressources préférées, et notre recommandation principale est de jeter un coup d’œil au programme d’alignement technique d’AGI Safety Fundamentals.
Si vous décidez de faire carrière dans ce domaine, nous vous recommandons généralement de travailler dans une organisation qui se consacre spécifiquement à ce problème (bien qu’il existe d’autres moyens d’apporter votre aide que de travailler dans des organisations existantes, comme nous l’expliquons brièvement ci-dessous).
Il existe de nombreuses approches de la sûreté de l’IA, notamment :
Voir la vue d’ensemble de Neel Nanda sur le paysage de l’alignement de l’IA pour plus de détails.
Laboratoires d’IA au sein de l’industrie qui disposent d’équipes techniques de sûreté, ou qui se concentrent entièrement sur la sûreté :
Laboratoires conceptuels de sûreté de l’IA :
La sûreté de l’IA dans le monde universitaire :
Si vous souhaitez en savoir plus sur la sûreté technique de l’IA — par exemple, les différentes techniques, écoles de pensée et modèles de menace — nous vous recommandons vivement de jeter un coup d’œil au cours sur l’alignement technique de l’AGI Safety Fundamentals.
Nous discutons de cette voie plus en détail dans cet article (qui est toutefois plus ancien que cette revue) :
Si vous cherchez quelque chose de plus concret et de plus progressif (avec très peu d’introduction), consultez ce guide détaillé sur la poursuite d’une carrière dans l’alignement de l’IA.
Il est important de noter qu*‘il n’est pas nécessaire d’être un universitaire ou un expert en IA ou en sûreté de l’IA pour contribuer à la recherche sur la sûreté de l’IA*. Par exemple, les ingénieurs informatiques sont recherchés dans de nombreux endroits menant des recherches techniques sur la sûreté, et nous mettons également en évidence d’autres rôles ci-dessous.
Indépendamment des problèmes techniques, nous sommes confrontés à une foule de problématiques concernant la gouvernance, notamment :
Pour y faire face, nous avons besoin d’une combinaison de travaux de recherche et de mesures politiques.4
Nous n’en sommes qu’aux premiers stades de définition de ce problème et des moyens les plus efficaces de l’aborder. Il est donc crucial que nous fassions davantage de recherches. Il s’agit notamment de recherches sur la prévision sur ce qui devrait se produire, et de recherches stratégiques et politiques sur les meilleures façons d’agir pour réduire les risques.
De plus, alors que l’IA commence à avoir un impact de plus en plus important sur notre société, il sera crucial que les gouvernements et les entreprises mettent en place les meilleures politiques pour façonner son développement. Par exemple, les gouvernements pourraient être en mesure de faire respecter des accords visant à éviter la prise de raccourcis en matière de sûreté, de favoriser le travail des chercheurs qui sont moins susceptibles de causer des dommages, ou de faire en sorte que les avantages de l’IA soient distribués plus équitablement. Le plaidoyer et le lobbying en faveur d’une politique appropriée en matière d’IA pourraient donc avoir un rôle clé à jouer, même si nous ne sommes pas encore en mesure de savoir quelles politiques il serait utile de suivre.
Organisations dédiées à la stratégie et à la politique en matière d’IA :
Si vous souhaitez en savoir plus sur la gouvernance de l’IA, nous vous recommandons vivement de jeter un coup d’œil au programme sur la gouvernance de l’AGI safety fundamentals.
Nous discutons de ce parcours plus en détail ici :
À noter également : il pourrait être particulièrement important pour les personnes ayant le bon profil de travailler sur la stratégie et la gouvernance de l’IA en Chine.
Même dans un organisme de recherche, environ la moitié du personnel effectue d’autres tâches essentielles pour que l’organisme soit le plus performant possible et ait un impact. Il est crucial d’avoir des personnes très performantes dans ces rôles.
Nous pensons que l’importance de ces rôles est souvent sous-estimée parce que le travail est moins visible. Nous avons donc rédigé plusieurs fiches de carrière sur ces domaines afin d’aider davantage de personnes à se lancer dans ces carrières et à réussir, notamment :
La sûreté de l’IA est un problème de grande envergure qui a besoin de l’aide de personnes effectuant de nombreux types de travaux différents.
Une façon majeure d’aider est de travailler dans un rôle qui oriente le financement ou les personnes vers la réduction du risque de l’IA, plutôt que de travailler directement sur le problème. Nous avons passé en revue quelques parcours professionnels allant dans ce sens, notamment :
Il y a plusieurs façons dont tout ça peut mal tourner, donc la première étape est de bien s’informer sur la question.
En dehors de la recherche sur la sûreté, d’autres rôles techniques pourraient également apporter leur contribution, par exemple :
Vous pouvez lire des informations sur toutes ces carrières — pourquoi nous pensons qu’elles sont utiles, comment y accéder et comment vous pouvez prédire si elles vous conviennent — sur notre page consacrée aux évaluations de carrières.
Notre tableau d’affichage des offres d’emploi présente des opportunités dans les domaines de la sûreté technique de l’IA et de la gouvernance.
Après vous avoir suggéré de nombreuses lectures complémentaires tout au long de cet article, voici quelques-unes de nos ressources préférées :
Dans le podcast de 80 000 Hours, nous avons un certain nombre d’entretiens approfondis avec des personnes qui travaillent activement à façonner de manière positive le développement de l’intelligence artificielle :
Si vous souhaitez aller beaucoup plus loin, le cours sur les principes fondamentaux de la sûreté de l’IA générale est un bon point de départ. Vous avez le choix entre deux filières : alignement technique ou gouvernance de l’IA. Si vous avez une formation plus technique, vous pouvez essayer Intro to ML Safety, un cours du Center for AI Safety.
Et enfin, voici quelques ressources générales (plutôt que des articles spécifiques) que vous pourriez vouloir explorer :
Un grand merci à Joel Becker, Tamay Besiroglu, Jungwon Byun, Joseph Carlsmith, Jesse Clifton, Emery Cooper, Ajeya Cotra, Andrew Critch, Anthony DiGiovanni, Noemi Dreksler, Ben Edelman, Lukas Finnveden, Emily Frizell, Ben Garfinkel, Katja Grace, Lewis Hammond, Jacob Hilton, Samuel Hilton, Michelle Hutchinson, Caroline Jeanmaire, Kuhan Jeyapragasan, Arden Koehler, Daniel Kokotajlo, Victoria Krakovna, Alex Lawsen, Howie Lempel, Eli Lifland, Katy Moore, Luke Muehlhauser, Neel Nanda, Linh Chi Nguyen, Luisa Rodriguez, Caspar Oesterheld, Ethan Perez, Charlie Rogers-Smith, Jack Ryan, Rohin Shah, Buck Shlegeris, Marlene Staib, Andreas Stuhlmüller, Luke Stebbing, Nate Thomas, Benjamin Todd, Stefan Torges, Michael Townsend, Chris van Merwijk, Hjalmar Wijk et Mark Xu pour la relecture de cet article ou pour leurs commentaires et conversations extrêmement réfléchis et utiles. (Cela ne veut pas dire qu’ils sont tous d’accord avec tout ce que nous avons dit ici — d’ailleurs, nous avons eu de nombreux désaccords animés dans les commentaires sur cet article.)