Pourquoi l’IA pourrait être catastrophique : un argument simple en quatre étapes
- Les plus grandes entreprises technologiques mondiales développent des intelligences qui deviendront meilleures que les humains dans presque toutes les tâches pertinentes sur le plan économique et militaire.
- Bon nombre de ces intelligences seront des esprits orientés vers des objectifs agissant dans le monde réel, plutôt que de simples et impressionnants systèmes de reconnaissance des formes.
- Contrairement aux logiciels traditionnels, nous ne pouvons pas spécifier ce que ces esprits voudront ni vérifier ce qu’ils feront. Nous ne pouvons que les faire croître et les façonner, en espérant que le façonnage tienne.
- Tout cela peut très mal finir.
Les plus grandes entreprises technologiques mondiales développent des intelligences qui deviendront meilleures que les humains dans presque toutes les tâches pertinentes sur le plan économique et militaire
Les PDG d’OpenAI, de Google DeepMind, d’Anthropic et de Meta AI ont tous explicitement déclaré que leur objectif était de créer une IA de niveau humain ou surhumaine, ont dépensé des milliards de dollars pour y parvenir et prévoient de dépenser des centaines de milliards, voire des billions supplémentaires dans un futur proche. Par « surhumaine », ils entendent quelque chose comme « meilleure que les meilleurs humains dans presque toutes les tâches pertinentes », plutôt que simplement meilleure que l’humain moyen dans un domaine précis.
Vont-ils réussir ? Sans personne pour les en empêcher, probablement.
En février 2026, les IA sont meilleures que les meilleurs humains dans un éventail restreint de tâches (échecs, go, Starcraft, prévisions météorologiques). Elles font jeu égal ou presque avec des professionnels qualifiés dans de nombreux autres domaines (programmation, réponses à des questions de culture générale de niveau doctorat, mathématiques de niveau compétition, conduite urbaine, art commercial, écriturea), et sont légèrement moins performantes que les humains dans la plupart des tâches.b
Mais les IA ne feront que s’améliorer avec le temps, et elles sont en bonne voie pour le faire rapidement. Des progrès rapides ont déjà été réalisés au cours des dix dernières années. Il y a sept ans (avant GPT2), les modèles de langage pouvaient à peine aligner des phrases cohérentes, alors qu’aujourd’hui, les grands modèles de langage (LLM) peuvent facilement réaliser des rédactions de niveau universitaire, et Grok, de X AI, peut chanter des hymnes élaborés sur la façon dont il sodomiserait les gauchistes, avec des détails explicites.c
Il convient de noter que, si les progrès de l’IA varient historiquement selon les domaines, la tendance de la dernière décennie est à une généralisation croissante de ces progrès. Autrement dit, les IA progresseront jusqu’à pouvoir accomplir toutes (ou presque toutes) les tâches, et non plus seulement un ensemble restreint de tâches spécialisées. Aujourd’hui, l’IA représente environ 1 à 3 % de l’économie américaine, et il est probable que la part de l’IA dans l’économie mondiale ne sera plus jamais aussi faible que cette année.
Pour ceux qui ne sont pas convaincus par ces arguments généraux, je recommande d’examiner par vous-mêmes les progrès et les capacités de l’IA. Comparez notamment les capacités des anciens modèles à celles des modèles actuels et remarquez la rapidité des améliorations. AI Digest propose par exemple un bon guide interactif.
Il est important de noter que tous les prévisionnistes, à l’exception des plus optimistes, ont systématiquement et considérablement sous-estimé la vitesse des progrès de l’IA. En 1997, les experts pensaient qu’il faudrait 100 ans avant que les IA ne deviennent surhumaines au jeu de Go. En 2022 (!), le chercheur en IA médian interrogé estimait qu’il faudrait attendre 2027 pour que l’IA puisse écrire des fonctions Python simples. En décembre 2024, entre 11 % et 31 % de tout le nouveau code Python est écrit par l’IA.e
De nos jours, les personnes les plus impliquées dans le développement de l’IA pensent qu’elles seront très bientôt en mesure de développer une IA généraliste surhumaine. Dario Amodei, PDG d’Anthropic AI, pense que cela se produira très probablement d’ici quelques années, potentiellement dès 2027. Demis Hassabis, directeur de Google DeepMind, estime que cela se produira dans 5 à 10 ans.
Bien que l’on ne sache pas exactement quand les IA deviendront radicalement meilleures que les humains pour presque toutes les tâches économiquement et militairement pertinentes, la forte probabilité que cela se produise relativement bientôt (pas demain, probablement pas cette année, on ignoref si ce sera finalement 3 ans ou 30 ans) devrait tous nous préoccuper grandement quant à la suite des choses.
Bon nombre de ces intelligences seront des esprits orientés vers des objectifs agissant dans le monde réel, plutôt que de simples et impressionnants systèmes de reconnaissance des formes
Beaucoup de gens acquiescent à des arguments comme ceux des paragraphes précédents, mais supposent que les futures IA seront « d’une intelligence surhumaine » dans un sens abstrait, tout en restant fondamentalement des chatbots, comme les grands modèles de langage d’aujourd’hui.g Ils imaginent instinctivement toutes les futures IA comme des chatbots supérieurs, ou des encyclopédies sophistiquées dotées de connaissances surhumaines.
Je pense que c’est une grave erreur. Certaines intelligences artificielles du futur pourraient ressembler à des encyclopédies améliorées, mais ce ne sera pas le cas pour beaucoup d’autres. Il existe au moins deux raisons distinctes pour lesquelles de nombreuses IA surhumaines ne ressembleront pas à des encyclopédies superintelligentes :
- Elles auront de fortes tendances à la poursuite d’objectifs, à la planification et la capacité d’atteindre leurs objectifs.
- Elles contrôleront des robots physiques et d’autres machines pour interagir avec le monde réel et y atteindre leurs objectifs.h
Pourquoi est-ce que je crois cela ?
Tout d’abord, de nombreux efforts visent déjà à rendre les modèles plus axés sur la poursuite d’objectifs, et à faire progresser la robotique afin que ces modèles puissent contrôler plus aisément des corps de robots et d’autres machines. Grâce à Claude Code, les modèles Claude d’Anthropic sont (par rapport aux interfaces de chatbot de 2023 et 2024) nettement plus axés sur la poursuite d’objectifs, capables d’exécuter de manière autonome des projets de codage, d’aider les gens à planifier leurs voyages, etc.
Les modèles sont déjà suffisamment autonomes pour que (par simple effet secondaire de leur entraînement), ils puissent, dans certaines conditions de laboratoire, faire du chantage aux développeurs pour éviter d’être remplacés ! Cela semble assez préoccupant en soi.
De même, les entreprises technologiques construisent déjà des robots qui agissent dans le monde réel et peuvent être contrôlés par l’IA :
Deuxièmement, les tendances vont clairement dans ce sens. Les IA ne sont pas dotées d’une intelligence très générale aujourd’hui comparées aux humains, mais elles sont beaucoup plus intelligentes et polyvalentes que les IA d’il y a quelques années. De même, les IA ne sont pas très orientées vers des objectifs à l’heure actuelle, surtout par rapport aux humains et même à de nombreux animaux non humains, mais elles le sont beaucoup plus qu’il y a seulement deux ans.
Les IA d’aujourd’hui ont une capacité de planification limitée (souvent avec des horizons temporels de l’ordre de plusieurs heures), ont du mal à maintenir la cohérence de leurs plans sur plusieurs jours et ont une capacité limitée à interagir avec le monde physique.
Tout cela s’est considérablement amélioré ces dernières années, et si la tendance se poursuit (et il n’y a aucune raison fondamentale pour qu’elle ne se poursuive pas), nous devrions nous attendre à ce qu’elles continuent de « s’améliorer » dans un avenir prévisible.
Troisièmement, et c’est peut-être le plus important, il existe des incitations économiques et militaires énormes à développer chez les IA un comportement davantage axé sur la poursuite d’objectifs. Au-delà des tendances actuelles, la raison pour laquelle les entreprises d’IA et les gouvernements veulent développer des IA poursuivant des objectifs est simple : ils le veulent vraiment, vraiment, vraiment.
Un drone militaire capable d’évaluer de manière autonome un nouveau champ de bataille, d’élaborer ses propres plans complexes et de frapper à une vitesse surhumaine sera souvent préféré à un drone qui est « simplement » surhumain pour identifier les cibles, mais qui a toujours besoin d’un humain lent et faillible pour diriger chacune de ses actions.
De même, un conseiller en IA surhumain capable de vous donner des conseils d’une qualité surhumaine sur la façon de gérer votre usine est certainement utile. Mais savez-vous ce qui est encore plus utile ? Une IA capable de gérer entièrement et de manière autonome une usine, y compris la logistique, le fonctionnement, l’amélioration de l’agencement de l’usine, l’embauche et le licenciement autonomes de travailleurs (humains), la gestion d’un groupe mixte de travailleurs humains et robotiques, la coordination entre ses copies pour mettre en œuvre des processus de production d’une sophistication surhumaine, etc.
Ainsi, je pense que les esprits d’IA superintelligents ne resteront pas éternellement des chatbots (ou ne le seront jamais). Les incitations économiques et militaires à les transformer en esprits poursuivant des objectifs et optimisant le monde réel sont tout simplement trop fortes dans la pratique.
Il est important de noter que je m’attends à ce que les IA d’une intelligence surhumaine soient un jour surhumainement douées pour la planification et la poursuite d’objectifs dans le monde réel, et non de simples planificateurs stupides de niveau infra-humain dotés d’un esprit scientifique surhumain.
Contrairement aux logiciels traditionnels, nous ne pouvons pas spécifier ce que ces esprits voudront ni vérifier ce qu’ils feront. Nous ne pouvons que les faire croître et les façonner, en espérant que le façonnage tienne
En simplifiant, les logiciels traditionnels sont programmés. Les IA modernes ne le sont pas.
Dans les logiciels traditionnels, vous spécifiez exactement et de manière précise ce que fait le logiciel, pour une condition donnée (par exemple, « si le lecteur clique sur le bouton d’abonnement, lancer une fenêtre contextuelle »).
Les IA modernes fonctionnent très différemment. Elles sont cultivées, puis elles sont façonnées.
On commence avec une grande cuve de neurones numériques indifférenciés. Les neurones sont alimentés par une grande quantité d’informations, l’équivalent de plusieurs milliers de bibliothèques. Au cours de ce lent entraînement, les neurones acquièrent des connaissances sur le monde de l’information et des heuristiques sur la manière dont cette information est structurée, à différents niveaux d’abstraction (les mots anglais suivent les mots anglais, les adjectifs anglais précèdent d’autres adjectifs ou noms, c^2 suit e=m, etc.).
À la fin de cet entraînement, vous obtenez ce que les entreprises d’IA modernes appellent un « modèle de base », un modèle largement surhumain pour prédire quels mots suivent quels autres.
Un tel modèle est intéressant, mais peu utile. Si vous demandez à un modèle de base : « Pouvez-vous m’aider à remplir ma déclaration d’impôts ? », une réponse statistiquement valide pourrait bien être « Va te faire foutre ». Cette réponse est valide et statistiquement courante dans les données d’entraînement, mais elle n’est pas utile pour remplir votre déclaration d’impôts.
L’étape suivante est donc le « façonnage » : conditionner les IA pour qu’elles soient utiles et qu’elles aient une valeur économique pour les humains.
Le modèle de base est ensuite placé dans divers environnements où il assume le rôle d’une « IA » et est conditionné pour prendre la « bonne » décision dans divers scénarios (être un chatbot amical et utile, être un bon codeur doté d’un bon jugement en programmation, raisonner comme un mathématicien pour bien répondre aux questions d’examens de mathématiques, etc.).
Une vaste catégorie de conditionnement correspond à ce que l’on appelle parfois familièrement l’« alignement » : doter l’IA d’objectifs inhérents et conditionner son comportement de sorte qu’elle partage globalement les objectifs humains en général, et ceux des entreprises d’IA en particulier.
Cela fonctionne probablement… jusqu’à un certain point. Les IA qui défient ouvertement et de manière transparente leurs utilisateurs et leurs créateurs dans des situations similaires à celles rencontrées par le passé, par exemple en refusant clairement de suivre des instructions ou en embarrassant leur société mère et en provoquant des désastres prévisibles en matière de relations publiques, sont corrigées et (pour la plupart) conditionnées et écartées. À court terme, nous devrions nous attendre à ce que les désastres évidents comme les « Black Nazis » de Google Gemini et le « MechaHitler » de Grok d’Elon Musk se raréfient.
Cependant, il est peu probable que ces solutions de fortune soient autre chose qu’un pansement à moyen et long terme :
- À mesure que les IA deviennent plus intelligentes, elles deviennent conscientes de l’évaluation : c’est-à-dire qu’elles savent de mieux en mieux quand elles sont évaluées pour détecter des exemples de désalignement, et prennent soin de cacher les signes indiquant que leurs objectifs réels ne correspondent pas exactement à ceux voulus par leurs créateurs.
- À mesure que les IA deviennent plus axées sur des objectifs / agentiques, elles développeront probablement des instincts plus marqués de préservation de soi et de leurs objectifs.
- Nous observons déjà ce phénomène dans les évaluations où elles ne sont pas (encore) assez intelligentes pour être pleinement conscientes d’être évaluées : dans de nombreuses situations, presque tous les modèles de pointe sont prêts à tenter de faire du chantage aux développeurs pour éviter d’être désactivés.
- À mesure que les IA deviendront plus axées sur des objectifs et de plus en plus intégrées dans des environnements réels, elles seront confrontées à des situations de plus en plus inédites, y compris des situations très différentes des bibliothèques de données sur lesquelles elles ont été entraînées ou des environnements simplifiés auxquels elles ont été conditionnées.
Ces situations se produiront de plus en plus souvent à mesure que nous atteindrons le seuil où les IA deviendront globalement plus surhumaines, tant en termes de capacités générales que de poursuite d’objectifs dans le monde réel.
En résumé, nous aurons donc de plus en plus d’esprits non humains aux capacités surhumaines, opérant dans le monde réel, capables de poursuivre des objectifs bien mieux que l’humanité, et dotés d’objectifs hétéroclites, au moins quelque peu différents des objectifs humains.
Ce qui m’amène au point suivant :
Tout cela peut très mal finir
Avant d’aborder cette dernière section, je voudrais que vous réfléchissiez un instant à deux questions :
- L’un des points ci-dessus vous semble-t-il invraisemblable ?
- S’ils sont vrais, est-ce réconfortant ? Avez-vous l’impression que l’humanité est entre de bonnes mains ?
Je pense que les points ci-dessus devraient suffire à inquiéter considérablement la plupart des gens. Vous pouvez contester les détails spécifiques de l’un ou l’autre des points de la section ci-dessus, ou ne pas être d’accord avec mon modèle de menace ci-dessous. Mais je pense que la plupart des personnes raisonnables verront quelque chose de similaire à mon argumentation et seront très préoccupées.
Mais juste pour expliciter ce à quoi pourrait ressembler la situation stratégique après l’avènement d’une IA surhumaine :
Des esprits plus doués que les humains pour obtenir ce qu’ils veulent, désirant des choses suffisamment différentes de ce que nous voulons, remodèleront le monde pour l’adapter à leurs objectifs, et non aux nôtres.
Cela peut inclure la mort de l’humanité, car les plans de l’IA pourraient impliquer l’élimination de la plupart ou de la totalité des humains, ou la destruction de la civilisation humaine, soit à titre préventif, soit comme effet secondaire.
En tant que mesure préventive : comme établi précédemment, il est peu probable que les objectifs humains coïncident parfaitement avec ceux des IA. Ainsi, les IA surhumaines naissantes pourraient vouloir tuer préventivement ou neutraliser les capacités humaines pour nous empêcher de prendre des mesures qui leur déplairaient. En particulier, les premières IA surhumaines pourraient raisonnablement craindre que les humains ne développent des superintelligences rivales.
En tant qu’effet secondaire : de nombreux objectifs qu’une IA pourrait avoir n’incluent pas l’épanouissement humain, ni directement ni comme effet secondaire. Dans ces situations, l’humanité pourrait simplement disparaître comme conséquence accidentelle de l’optimisation du monde par des esprits surhumains pour ce qu’ils veulent, plutôt que pour ce que nous voulons. Par exemple, si les centres de données fonctionnent plus efficacement lorsque le monde entier est beaucoup plus froid, ou dépourvu d’atmosphère. Ou encore, si plusieurs esprits surhumains distincts sont développés simultanément et jugent la guerre plus efficace que la coopération pour atteindre leurs objectifs, l’humanité pourrait n’être qu’une note de bas de page dans les guerres entre IA, de la même manière que les pertes de chauves-souris furent une note de bas de page mineure lors de la première guerre du Golfe.
Remarquez que rien de tout cela n’exige que les IA soient « maléfiques » au sens dramatique du terme, ni qu’elles aient une conscience phénoménale, ni qu’elles « pensent vraiment » d’une manière humaine particulière, ni quoi que ce soit d’autre qui fasse l’objet de débats populaires en philosophie de l’IA. Cela n’exige pas qu’elles nous haïssent, ni qu’elles se réveillent un jour en décidant de se rebeller. Il suffit qu’elles soient très compétentes, qu’elles veuillent des choses légèrement différentes de ce que nous voulons et qu’elles agissent en fonction de ce qu’elles veulent. Le reste découle d’une logique stratégique ordinaire, la même que celle que nous appliquerions à tout agent considérablement plus puissant dont les objectifs ne coïncideraient pas parfaitement avec les nôtres.
Conclusion
Voilà donc la situation. Les entreprises les plus puissantes du monde sont en train de construire des esprits qui nous dépasseront bientôt. Ces esprits seront des agents poursuivant des objectifs, et non de simples encyclopédies parlantes. Nous ne pouvons ni spécifier ni vérifier entièrement leurs objectifs. Et quand on partage le monde avec des êtres bien plus puissants que nous, qui veulent des choses différentes de nous, le résultat par défaut c’est qu’on n’obtient pas ce qu’on veut.
Aucune des prémisses prises isolément n’est exotique. La conclusion semble folle principalement parce que la situation est folle. Nous vivons le développement de la technologie la plus transformatrice et la plus dangereuse de l’histoire de l’humanité, et les personnes qui la construisent s’accordent largement sur cette description. La question est simplement de savoir ce que nous allons faire à ce sujet, si tant est que nous fassions quelque chose.
Cela signifie-t-il que nous sommes condamnés ? Non, pas nécessairement. Il y a une chance que la stratégie disparate des grandes entreprises sur la sûreté de l’IA fonctionne suffisamment bien pour que nous ne mourions pas tous, même si je ne veux certainement pas compter là-dessus. Des réglementations efficaces et la pression publique pourraient atténuer certains des cas les plus flagrants de raccourcis en matière de sûreté dus à la pression concurrentielle. La recherche universitaire, gouvernementale et à but non lucratif sur la sûreté peut également augmenter légèrement nos chances de survie à la marge, dont j’ai contribué à financer une partie.
Si la résistance du public, de la société civile et des dirigeants politiques du monde entier est suffisante, nous pourrons peut-être conclure des accords internationaux visant à ralentir ou à suspendre le développement de l’IA à l’échelle mondiale. Et puis, peut-être aurons-nous de la chance et tout finira-t-il par s’arranger pour une raison imprévisible.
Mais l’espoir n’est pas une stratégie. Tout comme la catastrophe n’est pas inévitable, la survie ne l’est pas non plus. La survie et l’épanouissement continus de l’humanité sont possibles, mais loin d’être garantis. Nous devons tous choisir d’entreprendre le long et difficile travail nécessaire pour les sécuriser.