Considérations cruciales et philanthropie avisée
Cet exposé s’appuiera sur certaines des idées dont Nick Beckstead a parlé avant le déjeuner. Contrairement à sa présentation, il ne s’agira pas d’un exposé bien présenté. Il s’agit d’un travail en cours, il y aura donc des raccourcis, certains éléments seront flous, etc. Mais j’attends avec impatience la partie discussion de cette séance.
Je voudrais donc parler de ce concept de considération cruciale, qui apparaît souvent dans le travail que nous effectuons. Supposons que vous soyez dans la forêt, que vous ayez une carte et une boussole et que vous essayiez de trouver une destination. Vous portez un certain poids, peut-être beaucoup d’eau parce que vous devez vous hydrater pour atteindre votre objectif et porter du poids, et vous essayez d’affiner la direction exacte dans laquelle vous allez. Vous essayez de déterminer la quantité d’eau que vous pouvez vider afin d’alléger votre charge sans en avoir trop peu pour atteindre votre destination.
Toutes ces considérations sont normales : vous affinez la façon dont vous allez progresser plus rapidement vers votre objectif. Mais en regardant de plus près la boussole que vous utilisez, vous vous apercevez que la partie aimantée s’est détachée. Cela signifie que l’aiguille peut maintenant pointer dans une direction complètement différente qui n’a aucun rapport avec le Nord : elle peut avoir tourné d’un nombre inconnu de tours ou de parties de tour.
Cette découverte vous fait perdre toute confiance dans tous les raisonnements antérieurs fondés sur une lecture plus précise de la direction de l’aiguille. Il s’agit là d’un exemple de considération cruciale dans le contexte de l’orientation. L’idée est qu’il peut y avoir des considérations similaires dans des contextes plus importants, qui nous déstabilisent complètement par rapport à ce que nous pensions savoir sur la direction générale ou la priorité.
Une considération cruciale est donc :
Dans un contexte utilitariste, on peut peut-être essayer de l’expliquer comme suit :
L’idée est qu’on dispose d’une norme d’évaluation fixe et qu’on élabore un plan d’ensemble pour atteindre un sous-objectif important. Il s’agit de la manière de maximiser cette norme d’évaluation. Une considération cruciale serait donc une considération qui change radicalement la valeur espérée de la réalisation de ce sous-objectif, et nous en verrons quelques exemples. Si on ne limite pas notre point de vue à un contexte utilitariste, on peut vouloir se replier sur les formulations plus informelles mentionnées plus haut, car l’utilitarisme lui-même pourrait être remis en question. Mais pour la plus grande partie de cet exposé, nous allons réfléchir à cette composante.
Il existe des concepts connexes qu’il est utile de connaître. Ainsi, une composante de considération cruciale est un argument, une idée ou une donnée qui, bien que ne constituant pas à elle seule une considération cruciale, semble avoir une probabilité substantielle de pouvoir jouer un rôle central au sein d’une considération cruciale. C’est le genre de chose dont nous dirions : « Cela semble vraiment intriguant, cela pourrait être important ; je ne sais pas vraiment ce qu’il faut en penser pour le moment ». Pris isolément, cela ne nous apprend peut-être pas grand chose, mais peut-être que si on le combine avec un autre élément, cela produira un résultat important. Il pourrait donc être utile de découvrir ce genre de composantes cruciales.
Il y a aussi le concept d’échelle de délibération, qui serait une séquence de considérations cruciales concernant le même sous-but important, où les considérations vont dans des directions opposées. Examinons quelques exemples de ce type d’échelles de considérations cruciales qui permettent d’illustrer la situation générale.
Prenons la question suivante : (A1) « Devrais-je voter aux élections nationales ? » Au « niveau 1 » du raisonnement, vous pensez : « Oui, je devrais voter pour mettre un meilleur candidat au pouvoir ». C’est tout à fait logique.
Puis vous réfléchissez un peu plus : (A2) « Mais il est très peu probable que mon vote fasse la moindre différence. Je ne devrais pas voter, mais utiliser mon temps à meilleur escient ».
(Ces exemples sont destinés à illustrer l’idée générale. Je ne souhaite pas vraiment me lancer dans une grande discussion sur ces exemples particuliers ; ils sont compliqués. Mais je pense qu’ils permettent d’illustrer le phénomène général.)
Nous sommes donc passés de « Oui, il faut voter », à l’élaboration d’un plan pour se rendre dans l’isoloir, etc. Et puis, avec la considération numéro deux, nous passons à « Non, je ne devrais pas voter, je devrais faire quelque chose de complètement différent ».
Vous vous dites alors : (A3) « Même s’il est peu probable que mon vote fasse une différence, les enjeux sont très importants : des millions de vies sont affectées par le président. Même si la probabilité que mon vote soit décisif est d’une sur plusieurs millions, le bénéfice escompté est suffisamment important pour que cela vaille la peine de se rendre au bureau de vote ». J’étais retourné devant la télévision pour regarder le match de football, mais voilà qu’il s’avère que je devrais voter, donc il y a une inversion du sens.
Ensuite, vous continuez à réfléchir : (A4) « Si l’élection n’est pas serrée, mon vote ne fera aucune différence. Si l’élection est serrée, alors environ la moitié des votes seront pour le mauvais candidat, ce qui implique soit que les candidats ont exactement ou presque exactement les mêmes mérites, et donc que le gagnant n’a pas vraiment d’importance, soit que le jugement typique des électeurs sur les mérites des candidats est extrêmement peu fiable et n’a pratiquement aucune valeur, et donc que je ne devrais pas prendre la peine de voter ».
Vous vous enfoncez alors dans votre canapé confortable, vous sortez le pop-corn ou autre, et vous vous dites : (A5) « Oh, bien sûr, je suis bien meilleur juge des mérites des candidats que l’électeur type, alors je devrais voter ».
Puis vous vous dites : (A6) « Mais des études psychologiques montrent que les personnes qui ont tendance à être trop confiantes se croient presque toutes supérieures à la moyenne, mais qu’elles ont autant de chances de se tromper que d’avoir raison sur ce point. Si je suis aussi susceptible de voter pour le mauvais candidat que l’électeur typique, alors mon vote n’apporterait qu’une information négligeable au processus de sélection, et je ne devrais pas voter. »
Et ça continue: (A7) « D’accord, j’ai suivi tout ce raisonnement qui signifie que je suis vraiment spécial, donc je devrais voter. »
Mais ensuite, (A8) « Eh bien, si je suis si spécial, alors le coût d’opportunité est vraiment élevé. Je devrais donc faire quelque chose de plus important. »
(A9) « Mais si je ne vote pas, mes connaissances verront que je n’ai pas soutenu les candidats que nous pensons tous être les meilleurs, ils me trouveront bizarre, étrange et déloyal. Cela diminuerait peut-être mon influence, que j’aurais pu utiliser à bon escient, et je devrais donc voter après tout. »
(A10) « Mais il est important de défendre ses convictions, de stimuler une discussion fructueuse. Ils pourraient penser que je suis vraiment sophistiqué si j’explique tous ces raisonnements compliqués pour voter, et cela pourrait augmenter mon influence, que je pourrais alors investir dans une bonne cause. » Et cetera, et cetera, et cetera.
Il n’y a aucune raison de penser que l’échelle s’arrête là ; c’est juste qu’on n’en peut plus à ce moment-là. Si on s’arrête à un moment donné, on peut se demander s’il y a d’autres marches sur l’échelle. Quelle raison pensez-vous vraiment avoir pour justifier la conclusion à laquelle vous êtes temporairement parvenu à ce stade ?
Je voudrais examiner un autre exemple d’échelle de délibération dans le contexte des politiques sur la technologie et du risque x (existentiel). Il s’agit d’un type d’argument qui peut être utilisé pour certains types de technologies, afin de déterminer si nous devrions essayer de les promouvoir ou de les financer davantage.
La technologie en question est la nanotechnologie ; c’est en fait l’exemple où cette ligne de raisonnement est apparue à l’origine. Certains éléments de ce raisonnement renvoient au livre d’Eric Drexler, Engines of Creation, dans lequel il préconise cette ligne de pensée (ch. 12).
(B1) « Nous devrions donc financer les nanotechnologies – c’est le raisonnement de « niveau 1 » – parce qu’il existe de nombreuses applications futures potentielles : médecine, fabrication, énergie propre, etc. Ce serait vraiment formidable si nous pouvions bénéficier de tous ces avantages. »
(B2) « Mais il semble aussi que les nanotechnologies pourraient avoir d’importantes applications militaires et être utilisées par des terroristes, etc. pour créer de nouvelles armes de destruction massive qui pourraient constituer une menace existentielle majeure. Si elles sont si dangereuses, nous ne devrions peut-être pas les financer. »
(B3) « Mais si ce type de technologie est possible, il est presque certain qu’elle sera développée tôt ou tard, que nous décidions ou non de la poursuivre. (« Nous » étant peut-être les personnes présentes dans cette salle ou les citoyens de Grande-Bretagne ou d’autres démocraties occidentales). Si des personnes responsables s’abstiennent de la développer, elle sera développée par des personnes irresponsables, ce qui rendra les risques encore plus grands, et nous devrions donc la financer. » (Vous pouvez constater que le même modèle pourrait s’appliquer à l’évaluation d’autres technologies que les nanotechnologies présentant des avantages et des inconvénients.)
(B4) « Mais nous avons déjà pris de l’avance dans le développement de ces technologies, de sorte qu’un financement supplémentaire ne ferait que nous y conduire plus tôt, nous laissant moins de temps pour nous préparer aux dangers. Nous ne devrions donc pas ajouter de financement : les personnes responsables peuvent arriver en premier même sans ajouter de financement à cette entreprise. »
(B5) Mais alors vous regardez autour de vous et vous ne voyez pratiquement aucun effort sérieux pour se préparer aux dangers des nanotechnologies – et c’est en fait l’argument de Drexler dans Engines – parce qu’une préparation sérieuse ne commencera que lorsqu’un projet massif sera déjà en cours pour développer les nanotechnologies. Ce n’est qu’à ce moment-là que les gens prendront cette perspective au sérieux. Plus un projet sérieux de type Projet Manhattan visant à développer les nanotechnologies est lancé tôt, plus il prendra de temps à être mené à bien, car plus on commence tôt, plus les bases sur lesquelles on s’appuie sont basses. Le projet proprement dit durera alors plus longtemps, ce qui nécessitera plus de temps pour la préparation : une préparation sérieuse ne commence que lorsque le projet démarre, et plus le projet démarre tôt, plus il prendra de temps, donc plus le temps de préparation sera long. Cela suggère que nous devrions faire tout notre possible pour que ce produit soit lancé immédiatement, afin de maximiser le temps de préparation.
Mais d’autres considérations doivent être prises en compte.
(B6) Le niveau de risque sera influencé par des facteurs autres que la quantité de préparation sérieuse qui a été faite, spécifiquement pour contrer la menace des nanotechnologies. Par exemple, l’intelligence artificielle ou la surveillance omniprésente pourraient être développées avant les nanotechnologies, éliminant ou atténuant les risques de ces dernières. Bien que ces autres technologies puissent présenter elles-mêmes des risques importants, il faudrait de toute façon y faire face. Et il y a bien d’autres choses à dire. Les nanotechnologies ne réduiraient pas vraiment ces autres risques, comme les risques liés à l’IA, par exemple. Il serait préférable de développer la superintelligence ou la surveillance omniprésente avant la nanotechnologie, et nous devrions donc nous opposer à un financement supplémentaire de la nanotechnologie même si la superintelligence et la surveillance omniprésente pourraient être très dangereuses en elles-mêmes, y compris poser un risque existentiel, compte tenu de certaines hypothèses de base sur la conjecture de l’achèvement technologique – selon laquelle, à moins que la civilisation ne s’effondre, toutes les technologies générales utiles possibles seront à terme développées – ces dangers devront être affrontés, et notre choix ne concerne réellement que l’ordre dans lequel nous les affrontons. Il vaut mieux affronter la superintelligence avant la nanotechnologie, car la superintelligence peut éviter le risque de la nanotechnologie, mais pas l’inverse.
(B7) Toutefois, si les gens s’opposent à un financement supplémentaire des nanotechnologies, les personnes travaillant dans le domaine des nanotechnologies n’apprécieront pas les personnes qui s’y opposent. (Cette idée est aussi expliquée dans le livre de Drexler.) Mais d’autres scientifiques pourraient considérer ces personnes qui s’opposent au financement des nanotechnologies comme anti-scientifiques, ce qui réduira notre capacité à travailler avec ces scientifiques et entravera nos efforts sur des questions plus spécifiques – des efforts qui ont plus de chances de faire une différence matérielle dans toute tentative de notre part d’influencer le niveau de financement national des nanotechnologies. Nous ne devrions donc pas nous opposer aux nanotechnologies. En d’autres termes, plutôt que de nous opposer aux nanotechnologies, nous pourrions essayer de les ralentir un peu. Mais nous sommes un petit groupe et nous ne pouvons pas faire une grande différence – nous devrions travailler avec les scientifiques spécialisés dans les nanotechnologies, être leurs amis, et ensuite peut-être essayer d’influencer à la marge, pour qu’ils développent les nanotechnologies d’une manière légèrement différente ou qu’ils ajoutent des garde-fous, et des choses comme ça.
Encore une fois, il n’y a pas de raison claire de penser que nous avons atteint la limite du niveau de délibération que nous pourrions appliquer à cette question. C’est déconcertant parce qu’on a l’impression que les résultats pratiques ne cessent de changer au fur et à mesure que l’on s’enfonce dans l’arbre de recherche, et on peut se demander pourquoi. Je pense que ces échelles de délibération sont particulièrement susceptibles d’apparaître lorsque l’on essaie d’être un utilitariste pur et dur et que l’on prend vraiment au sérieux la question de la vue d’ensemble.
Examinons quelques raisons possibles pour expliquer cette situation. Si nous comparons, par exemple, le domaine d’application de l’utilitarisme à un autre domaine d’application, disons si vous avez une fonction de préférence humaine ordinaire – vous voulez une vie épanouie, comme une famille en bonne santé, une carrière réussie et un peu de détente, les valeurs humaines typiques – si vous essayez de satisfaire ces préférences, il semble moins probable que vous rencontriez un grand nombre de ces considérations cruciales. Comment cela se fait-il ?
Une explication possible est que nous avons plus de connaissances et d’expérience de la vie humaine au niveau personnel. Des milliards de personnes ont essayé de maximiser une fonction d’utilité humaine ordinaire, ont reçu beaucoup de rétroaction et beaucoup de choses ont été essayées. Nous connaissons donc déjà certains principes de base, comme le fait que si l’on veut vivre pendant des décennies, il est bon de manger, etc. Nous n’avons pas besoin de les découvrir. Et peut-être que nos préférences ont été façonnées par l’évolution pour correspondre plus ou moins au type d’opportunités que nous pouvons exploiter cognitivement dans l’environnement. Il se peut donc que nous n’ayons pas une préférence bizarre qui soit systématiquement impossible à satisfaire. Dans le cas de l’utilitarisme, la préférence utilitaire s’étend bien au-delà de notre environnement familier, y compris dans les biens communs cosmiques, dans des milliards d’années dans le futur et dans des civilisations super avancées : ce qu’elles font est important, très important, du point de vue de l’utilitarisme. La plupart des choses dont se préoccupe la préférence utilitariste sont des choses qui ne nous sont pas familières.
Une autre source possible de considérations cruciales concernant l’utilitarisme est la difficulté à comprendre l’objectif lui-même. Par exemple, si l’on essaie de réfléchir à la manière d’appliquer l’utilitarisme à un monde qui a une probabilité finie d’être infini, on se heurtera à des difficultés quant à la manière de mesurer différentes grandeurs infinies tout en continuant à voir comment nous pourrions faire la moindre différence dans le monde. J’ai rédigé un long article à ce sujet et nous n’avons pas besoin d’y revenir. Il y a d’autres problèmes qui consistent à essayer de définir l’utilitarisme pour traiter tous ces cas possibles.
La troisième raison possible est que l’on peut penser que nous sommes proches, pas super proches, mais proches d’un point pivot de l’histoire. Cela signifie que nous pourrions aujourd’hui avoir des occasions spéciales d’influencer l’avenir à long terme. Et nous en sommes encore loin : il n’est pas évident de savoir ce que nous devrions faire pour avoir un impact maximal sur l’avenir. Mais nous sommes encore suffisamment proches pour commencer à percevoir certains contours de l’appareil qui façonnera l’avenir. Par exemple, on peut penser que la superintelligence pourrait être ce point pivot, ou l’un d’entre eux (il peut aussi y avoir des points pivots à risque x), auquel nous serons confrontés au cours de ce siècle. Dans ce cas, il se peut que nous commencions à peine à avoir la capacité de penser à ces choses, ce qui introduit toute une série de nouvelles considérations qui pourraient être très importantes. Cela pourrait également affecter le domaine personnel. C’est comme pour la fonction d’utilité typique d’une personne ordinaire : elle n’accorde probablement pas un million de fois plus de valeur au fait de vivre un milliard d’années qu’à celui de vivre cent ans, ou mille fois plus de valeur au fait d’élever mille enfants qu’à celui d’élever un seul enfant. Ainsi, même si l’avenir existe toujours, il ne pèse pas aussi lourd dans la fonction d’utilité d’un être humain normal que pour les utilitaristes.
Quatrièmement, on pourrait également faire valoir que nous avons récemment découvert certains outils d’exploration clés qui nous permettent de faire ces découvertes très importantes sur la façon d’être un bon utilitariste. Nous n’avons pas encore fait le tour de ces outils, et nous continuons donc à faire de nouvelles découvertes fondamentales en utilisant ces outils d’exploration. C’est pourquoi il semble qu’il y ait tant de considérations cruciales à découvrir. Nous pourrions parler un peu de certaines d’entre elles plus tard dans la présentation.
Permettez-moi d’aborder cette question sous un angle légèrement différent. Aux échecs, la façon idéale de jouer est de commencer par réfléchir aux mouvements possibles, puis aux réponses possibles de l’adversaire et à vos réponses à ces réponses. Dans l’idéal, on réfléchirait à tout cela jusqu’à l’état final, puis on essaierait de sélectionner un premier coup qui serait le meilleur du point de vue de la victoire si l’on pouvait calculer l’ensemble de l’arbre de jeu. Mais c’est impossible à calculer parce que l’arbre se ramifie trop : il y a un nombre exponentiel de mouvements à prendre en compte. Ce qu’il faut donc faire, c’est calculer explicitement un certain nombre de coups à l’avance. Peut-être une douzaine de coups à venir ou quelque chose comme ça. À ce stade, votre analyse doit s’arrêter, et ce que vous faites est d’avoir une fonction d’évaluation qui est relativement simple à calculer, qui essaie de regarder l’état du plateau qui pourrait résulter de cette séquence de six coups et contre-coups, et d’une certaine manière d’essayer d’estimer la valeur de cet état. Une fonction typique d’évaluation des échecs pourrait ressembler à ceci.
Évaléchecs = (c1 × matériel) + (c2 × mobilité) + (c3 × sécurité du roi) + (c4 × contrôle du centre) + …
Vous avez un terme qui évalue la quantité de matériel dont nous disposons, comme le fait d’avoir une reine et beaucoup de pièces est bénéfique. Le fait que l’adversaire ait peu de pièces est également bénéfique. Nous avons une mesure comme un pion vaut un et une reine vaut, je ne sais pas, 11 ou quelque chose comme ça. Il s’agit là d’un élément de la fonction d’évaluation. Ensuite, il faut peut-être tenir compte de la mobilité de vos pièces. Si elles sont toutes entassées dans un coin, c’est généralement une situation peu prometteuse, et vous avez donc un terme pour cela. La sécurité du roi – le contrôle du centre ajoute un peu de valeur : si vous contrôlez le milieu de l’échiquier, nous savons par expérience qu’il s’agit d’une bonne position. Il s’agit donc de calculer explicitement un certain nombre d’étapes à l’avance et d’obtenir cette fonction d’évaluation relativement immuable qui est utilisée pour déterminer laquelle de ces parties initiales que vous pourriez jouer aboutirait à la situation la plus avantageuse pour vous. Ces fonctions d’évaluation sont principalement dérivées de certains maîtres d’échecs humains qui ont une grande expérience du jeu. Les paramètres, comme le poids que vous attribuez à ces différentes caractéristiques, peuvent également être appris par l’intelligence artificielle.
Nous faisons quelque chose d’analogue dans d’autres domaines. Comme pour une politique publique traditionnelle typique, les économistes adeptes de la protection sociale pourraient penser qu’il faut maximiser une certaine fonction de bien-être social qui pourrait prendre une forme comme celle-ci.
Évalpolitique publique = (c1 × PIB) + (c2 × emploi) + (c3 × égalité) + (c4 × environnement) + …
LE PIB ? Oui, nous voulons plus de PIB, mais nous devons aussi tenir compte du taux de chômage, peut-être du degré d’égalité ou d’inégalité, d’un certain facteur pour la santé de l’environnement. Il se peut que ce que nous écrivons ici ne soit pas exactement l’équivalent de la bonté morale fondamentalement considérée. Mais nous savons que ces choses ont tendance à être bonnes, ou en tout cas c’est ce que nous pensons. Il s’agit d’une approximation utile de la valeur réelle qui pourrait être plus facile à mettre en œuvre dans un contexte pratique de prise de décision. Je peux donc me demander s’il existe quelque chose de similaire pour la bonté morale.
Évalbonté_morale = ?
Vous voulez faire ce qu’il y a de mieux sur le plan moral, mais il semble difficile, voire impossible, de calculer tout cela à partir de zéro dans n’importe quelle situation. Vous avez besoin de principes plus stables que vous pouvez utiliser pour évaluer les différentes choses que vous pourriez faire. Dans ce cas, nous pourrions envisager une version plus restreinte de l’utilitarisme. Nous pouvons nous demander ce que nous pourrions y mettre.
Évalutilitariste = ?
Nous pouvons ici revenir à certaines des choses dont Beckstead a parlé. Si nous plaçons la capacité, qui pourrait être le niveau de développement économique et de sophistication technologique, etc., sur un axe et le temps sur l’autre, je pense que la condition humaine est une sorte de région métastable sur cet axe de la capacité.

On peut fluctuer à l’intérieur pendant un certain temps, mais plus l’échelle de temps envisagée est longue, plus il y a de chances que l’on quitte cette région soit vers le bas et que l’on s’éteigne – si l’on a trop peu de ressources en dessous de la taille minimale viable de la population, on s’éteint (c’est un état attracteur : une fois que l’on est éteint, on a tendance à le rester) – soit vers le haut : nous atteignons la maturité technologique, nous entamons le processus de colonisation et l’avenir de la vie intelligente d’origine terrestre pourrait alors être cette bulle qui s’étend à une fraction significative de la vitesse de la lumière et finit par accéder à toutes les ressources cosmologiques qui sont en principe accessibles à partir de notre point de départ. Il s’agit d’une quantité finie en raison de la constante cosmologique positive : il semble que nous ne puissions accéder qu’à une quantité finie de ressources. Mais une fois que l’on a commencé, une fois que l’on est devenu un empire intergalactique, il semble que l’on puisse continuer à progresser avec une forte probabilité jusqu’à cette vision naturelle.
Nous pouvons définir le concept de risque existentiel comme celui de ne pas réaliser le potentiel de valeur que l’on pourrait obtenir en accédant aux biens communs cosmologiques, soit en s’éteignant, soit en accédant à tous les biens communs cosmologiques mais en ne les utilisant pas à des fins bénéfiques, ou quelque chose comme ça.
Cela suggère le principe de Maxipok que Beckstead a également mentionné : Maximiser la probabilité d’un résultat correct (OK).
arg max [- P(catastrophe existentielle / action)]
Il s’agit clairement, au mieux, d’une règle empirique : il ne s’agit pas d’un principe moral valable dans toutes les situations possibles. Ce n’est pas le cas. En fait, si l’on veut passer du principe initial à quelque chose de praticable, il faut le subordonner à diverses hypothèses empiriques. C’est le compromis à faire : vous voulez faire le moins d’hypothèses possible tout en vous rapprochant le plus possible d’une solution praticable. Je pense qu’il s’agit là d’un compromis raisonnable. En d’autres termes, il s’agit de prendre les mesures qui minimisent le risque existentiel intégral auquel l’humanité sera confrontée. Cela ne vous donnera pas toujours la bonne réponse, mais c’est un point de départ. Il y a d’autres éléments que ceux mentionnés par Beckstead, il pourrait y avoir d’autres scénarios où cela donnerait une mauvaise réponse : si l’on pense qu’il y a un grand risque de catastrophe hyper existentielle comme un scénario d’enfer, alors on pourrait vouloir augmenter légèrement le niveau des risques existentiels afin de diminuer le risque qu’il n’y ait pas seulement une catastrophe existentielle, mais une catastrophe hyper existentielle. D’autres éléments pourraient entrer en ligne de compte, comme les changements de trajectoire qui ne sont pas radicaux et qui ne font que se déplacer légèrement.
Pour l’instant, nous pourrions considérer la suggestion d’utiliser la règle de Maxipok comme notre tentative de définir la fonction de valeur pour les agents utilitaristes.
Évalutilitariste ≈ Maxipok
La question qui se pose alors est la suivante : « Si on veut minimiser le risque existentiel, que doit-on faire ? »
EvalMaxipok = ?
Il s’agit encore d’un objectif de très haut niveau. Nous devons encore travailler pour le décomposer en éléments plus tangibles.

J’ai cette belle diapositive provenant d’une autre présentation. Il s’agit d’une manière différente d’exprimer une partie de ce que je viens de dire : au lieu de penser à la durabilité telle qu’elle est communément connue, comme un concept statique qui a un état stable que nous devrions essayer d’approcher, où nous n’utilisons pas plus de ressources que ce qui est régénéré par l’environnement naturel, nous devons, je pense, penser à la durabilité en termes dynamiques, où au lieu d’atteindre un état, nous essayons d’entrer et de rester sur une trajectoire qui est indéfiniment durable dans le sens où nous pouvons la contenir pour suivre cette trajectoire indéfiniment et qu’elle mène dans une bonne direction.
Une analogie serait celle d’une fusée. Un état stable pour une fusée est sur la rampe de lancement : elle peut rester là pendant longtemps. Si elle se trouve dans l’espace, elle peut continuer à voyager pendant une période encore plus longue, peut-être, si elle ne rouille pas et tout ça. Mais en plein vol, le système est instable. Je pense que l’humanité en est là aujourd’hui : nous sommes en plein vol. Le concept de durabilité statique suggère que nous devrions réduire notre consommation de carburant au minimum nécessaire pour nous permettre de rester en vol stationnaire. Ainsi, nous pourrions peut-être prolonger la durée pendant laquelle nous pourrions rester dans notre situation actuelle, mais ce que nous devrions peut-être plutôt faire, c’est maximiser la consommation de carburant afin d’avoir suffisamment de poussée pour atteindre la vitesse d’évasion. (Et ce n’est pas un argument littéral pour brûler autant de combustible fossile que possible. Ce n’est qu’une métaphore.)
Ce qu’il faut retenir, c’est que pour avoir les meilleures conditions possibles, nous avons besoin d’une technologie super avancée : pour pouvoir accéder aux biens communs cosmiques, pour pouvoir guérir toutes les maladies qui nous affligent, etc. Je pense que pour avoir le meilleur monde possible, il faudra aussi beaucoup de perspicacité et de sagesse, et beaucoup de coordination pour éviter d’utiliser la technologie avancée pour se faire la guerre, et ainsi de suite.
ÉvalMaxipok = f (sagesse, coordination, développement technologique différentiel, …)
En fin de compte, nous voudrions un état dans lequel nous avons d’énormes quantités de chacune de ces trois variables, mais cela laisse ouverte la question de savoir ce que nous voulons de plus dans notre considération. Il se pourrait, par exemple, que nous souhaitions davantage de coordination et de compréhension avant d’avoir plus de technologies d’un certain type. Ainsi, avant de disposer de diverses technologies puissantes, nous voudrions d’abord nous assurer que nous sommes suffisamment pacifiques et compréhensifs pour ne pas les utiliser à des fins guerrières, et que nous avons suffisamment de perspicacité et de sagesse pour ne pas nous faire sauter accidentellement avec ces technologies. Il est clair qu’une superintelligence semble être quelque chose que l’on voudrait avoir dans une utopie – c’est un très haut niveau de technologie – mais nous pourrions avoir besoin d’un certain degré de compréhension avant de développer une superintelligence, afin de pouvoir la développer de la bonne manière. On peut commencer à se demander, par analogie avec la situation des tests informatiques, s’il existe différentes caractéristiques que l’on pourrait considérer comme des composantes de cette fonction d’évaluation pour les utilitaristes, le Maxipok. Le principe de développement technologique différentiel suggère que nous devrions retarder le développement de technologies dangereuses et nuisibles – celles qui augmentent le risque existentiel – et accélérer les technologies qui réduisent le risque existentiel. Voici notre première esquisse, ce n’est pas une réponse définitive, mais on peut penser que nous voulons beaucoup de sagesse, nous voulons beaucoup de paix et de coopération internationales, et en ce qui concerne les technologies, c’est un peu plus compliqué : nous voulons des progrès plus rapides dans certains domaines technologiques, peut-être, et plus lents dans d’autres. Je pense qu’il s’agit là de trois grands types d’éléments que l’on pourrait vouloir intégrer dans la fonction d’évaluation.
Cela suggère qu’en plus des interventions ou des causes, il faut penser à la signature de différents types de choses. Une intervention doit avoir un effet de levier important, et une cause doit promettre des interventions à effet de levier important. Il ne suffit pas de penser que quelque chose que l’on pourrait faire ferait du bien, il faut aussi réfléchir sérieusement à l’ampleur du bien que cela pourrait faire par rapport à d’autres choses que l’on pourrait faire. Il ne sert à rien de réfléchir à des causes sans se demander comment voir tous les bénéfices à portée de main que l’on pourrait obtenir. Une grande partie de la réflexion porte donc sur ce point. Mais lorsque nous évoluons à ce niveau plus élevé, à cette haute altitude où il y a ces considérations cruciales, il semble également utile de penser à déterminer le signe de différents paramètres de base, peut-être même lorsque nous ne sommes pas sûrs de la manière dont nous pourrions les influencer. (Nous pourrions initialement mettre entre parenthèses les questions relatives à l’effet de levier, car pour nous orienter dans le paysage, nous pourrions vouloir repousser un peu cette question dans ce contexte. Mais un bon panneau de signalisation – c’est-à-dire un bon paramètre dont nous aimerions déterminer la signature – devrait être visible de loin. En d’autres termes, si nous définissons une certaine quantité avec des termes qui font qu’il est très difficile de dire si une intervention donnée contribue positivement ou négativement à cette quantité que nous venons de définir, alors elle n’est pas si utile en tant que panneau indicateur. Ainsi, « maximiser la valeur espérée », par exemple, est la quantité qu’ils pourraient définir. Mais cela ne nous aide pas beaucoup, car chaque fois qu’on essaie de faire quelque chose de spécifique, on en est toujours virtuellement aussi loin qu’avant. En revanche, si l’on se fixe un objectif plus concret, comme « maximiser le nombre de personnes dans cette salle », ou quelque chose comme ça, on peut facilement savoir combien il y a de personnes, et on a des idées sur la façon dont on pourrait maximiser ce nombre. Ainsi, toute action particulière à laquelle nous pensons peut être facilement évaluée par rapport à l’objectif de maximiser le nombre de personnes présentes dans cette salle. Cependant, nous pourrions avoir l’impression qu’il est très difficile d’obtenir des raisons solides de savoir s’il est préférable qu’il y ait plus de personnes dans cette salle ou s’il existe une relation inverse. Un bon panneau indicateur devrait trouver un compromis raisonnable entre le fait d’être visible de loin et le fait d’être tel que nous puissions avoir de bonnes raisons d’être sûrs de son signe.
Voici quelques panneaux très provisoires : ils sont provisoires à mon avis, et je suppose que les avis divergent beaucoup d’une personne à l’autre. Il s’agit donc plutôt de domaines à étudier. Mais il peut être utile de montrer comment on peut commencer à y réfléchir.
Voulons-nous des progrès plus rapides ou plus lents dans le domaine du matériel informatique ? À mon avis, nous voulons des progrès plus lents. Et cela est lié aux risques liés à la transition vers l’intelligence artificielle. Des ordinateurs plus rapides faciliteraient la production d’IA, ce qui (a) les rendrait probablement plus rapides, ce qui semble peut-être mauvais en soi parce que cela laisse moins de temps pour le type de préparation approprié dont nous avons grand besoin ; et (b) pourrait réduire le niveau de compétence requis pour produire des IA : avec une puissance de calcul ridiculement élevée, vous pourriez être en mesure de produire des IA sans vraiment savoir ce que vous faites ; lorsque vous êtes limité par le matériel, vous pourriez avoir besoin de plus de perspicacité et de compréhension, et il est préférable que les IA soient créées par des personnes qui ont plus de perspicacité et de compréhension.
Il ne s’agit en aucun cas d’un argument irréfutable, car il existe d’autres risques existentiels. Si vous pensez que nous sommes sur le point de disparaître, parce que quelqu’un va développer la nanotechnologie, alors vous voudrez peut-être essayer le joker de l’IA le plus tôt possible. Mais tout bien considéré, c’est ma meilleure hypothèse actuelle. Voilà le genre de raisonnement auquel on peut se livrer.
L’émulation du cerveau entier ? Nous avons effectué une analyse longue et approfondie de cette question. Plus précisément, il ne s’agit pas de savoir si nous voulons une émulation du cerveau entier, mais si nous voulons plus ou moins de financement pour l’émulation du cerveau entier, plus ou moins de ressources pour la développer. C’est l’une des voies possibles vers la superintelligence des machines et, pour des raisons complexes, je pense que la réponse est « non », mais c’est encore plus incertain, et nous avons beaucoup d’opinions différentes dans notre groupe de recherche à ce sujet. (Si quelqu’un s’intéresse à un point en particulier, nous pourrons nous y attarder lors de la discussion.)
L’amélioration biologique de la cognition chez les humains ? À mon avis, nous voulons des progrès plus rapides dans ce domaine. Ces trois domaines – dont je parle plus en détail dans le livre Superintelligence – ainsi que l’IA.
L’IA. Je pense que nous voulons que l’IA progresse probablement un peu plus lentement qu’elle ne le fera probablement par défaut.
Une autre question se pose : S’il existe une entreprise, un projet ou une équipe qui développera la première IA réussie, quelle avance veut-on que cette équipe ait par rapport à la deuxième équipe qui essaie de le faire ? À mon avis, nous voulons qu’elle ait beaucoup d’avance, plusieurs années idéalement, pour lui permettre de ralentir à la fin pour mettre en œuvre davantage de mesures de sécurité, plutôt que d’être dans une course technologique serrée.
Des solutions au problème du contrôle de l’IA ? Je pense que nous voulons progresser plus rapidement dans ce domaine, et c’est l’un de nos domaines prioritaires. Certains de nos amis du Machine Intelligence Research Institute sont présents ici et travaillent également beaucoup sur ce sujet.
Le mouvement de l’altruisme efficace ? Je pense que c’est une très bonne chose à bien des égards, ce serait même une bonne chose d’accélérer et d’améliorer la croissance dans ce domaine.
La paix et la coopération internationales ? C’est une bonne chose.
La biologie synthétique ? Je pense que c’est une mauvaise chose. Nous n’y avons pas réfléchi aussi attentivement, donc cela pourrait changer, mais il semble que cela pourrait présenter des risques, bien que cela puisse également être bénéfique. Dans la mesure où elle pourrait permettre d’améliorer les capacités cognitives, il y aura une sorte d’arbitrage difficile à faire.
La nanotechnologie ? Je pense que c’est mauvais : nous voulons des progrès plus lents dans ce domaine.
La croissance économique ? À mon avis, il est très difficile d’en déterminer le signe. Et au sein d’une communauté de personnes qui ont bien réfléchi à la question, il y a, là encore, des suppositions différentes quant au signe de cette croissance.
La prévention des catastrophes à petite et moyenne échelle ? Cela semble également positif. Les risques catastrophiques mondiaux ne sont donc pas au même niveau que le risque existentiel. Là encore, il est très difficile de déterminer le signe de cela. Ici, nous mettons entre parenthèses l’effet de levier, même le simple fait de savoir si nous en voudrions plus ou moins, si nous pouvions l’obtenir gratuitement, n’est pas évident. D’une part, les catastrophes à petite échelle pourraient créer une réaction immunitaire qui nous rendrait meilleurs, mettrait en place de meilleures mesures de protection et d’autres choses de ce genre, qui pourraient nous protéger des grandes catastrophes. Si nous pensons à des catastrophes de moyenne ampleur qui pourraient provoquer un effondrement de la civilisation, de grande ampleur selon les normes ordinaires, mais de moyenne ampleur seulement par rapport aux catastrophes existentielles, qui sont de grande ampleur dans ce contexte, là encore, le signe de ces catastrophes n’est pas totalement évident : il reste encore beaucoup de travail à faire pour essayer de le déterminer. Si le rétablissement semble très probable, on peut alors essayer de deviner si la civilisation rétablie serait plus susceptible d’éviter une catastrophe existentielle après avoir vécu cette expérience ou non.
Tels sont les paramètres auxquels on peut commencer à réfléchir. On ne se rend pas compte à quel point c’est difficile, même certains paramètres qui, du point de vue du bon sens ordinaire, semblent évidents, se révèlent en fait peu évidents une fois que l’on commence à réfléchir à la manière dont ils sont censés s’imbriquer les uns dans les autres. Supposons que vous soyez un administrateur ici à Oxford, que vous travailliez au département d’informatique et que vous en soyez le secrétaire. Supposons que vous trouviez un moyen de rendre le département un peu plus efficace : vous créez cette liste de diffusion pour que chacun puisse, lorsqu’il a une annonce à faire, l’envoyer par courriel à la liste de diffusion plutôt que d’avoir à inscrire chaque personne individuellement dans le champ d’adresse. C’est une chose utile, c’est une chose formidable : cela n’a rien coûté, si ce n’est un coût unique, et tout le monde peut désormais vaquer à ses occupations plus facilement. De ce point de vue, il n’est pas évident de savoir s’il s’agit en fait d’une bonne chose. Il se peut que cela contribue à l’IA, ce qui pourrait être le principal effet de la situation, à l’exception de l’effet général très faible sur la croissance économique. Et il se peut que vous ayez détérioré le monde, en terme de valeur espérée, en réalisant cette petite amélioration de l’efficacité. Ainsi, ce projet d’essayer de réfléchir à tout cela ressemble un peu à l’Umwertung aller Werte de Nietzsche — la réévaluation de toutes les valeurs — qu’il n’a jamais eu l’occasion de terminer, parce qu’il est devenu fou avant de le faire.
Voici donc quelques types de domaines – je ne vais pas les aborder tous, je donne simplement des exemples de domaines où il semble qu’il y ait encore des considérations cruciales à prendre en compte aujourd’hui. Il ne s’agit en aucun cas d’une liste exhaustive, et nous pourrons parler plus en détail de certains d’entre eux. Ces considérations vont des plus générales, abstraites et puissantes aux plus spécifiques et compréhensibles par un raisonnement ordinaire.
Prenons un exemple : les insectes. Si vous êtes un utilitariste classique, cette considération s’inscrit dans un cadre plus terre à terre – nous mettons de côté les biens communs cosmologiques et pensons uniquement à la Terre. Si les insectes sont sentients, il se peut que la quantité de sentience chez les insectes soit très importante parce qu’ils sont très, très nombreux. Ainsi, l’effet de nos politiques sur le bien-être des insectes pourrait l’emporter sur l’effet de nos politiques sur le bien-être des humains ou des animaux dans les élevages industriels, etc. Je ne dis pas que c’est le cas, mais c’est une question qui n’est pas évidente et qui pourrait avoir un impact important.
Prenons un autre exemple : Les sous-programmes. Dans certains types d’intelligence artificielle, il existe des processus, comme les algorithmes d’apprentissage par renforcement et d’autres sous-processus au sein de l’IA, qui pourraient avoir un statut moral d’une manière ou d’une autre. Il est possible que ces sous-processus soient exécutés en très grand nombre, de sorte que s’il s’avère que certaines de ces choses comptent, alors le nombre pourrait à nouveau dominer. Chacun de ces sujets constitue un séminaire complet en soi, ce n’est donc pas quelque chose que nous pouvons approfondir.
Chacun de ces points nécessiterait un atelier à part entière, et nous ne pouvons donc pas nous y attarder. Mais que peut-on faire si l’on soupçonne l’existence de ces considérations cruciales, dont certaines n’ont pas encore été découvertes ? Je n’ai pas de réponse précise à cette question. Voici quelques mesures plausibles à première vue que l’on pourrait essayer de prendre :
C’est tout. Je vous remercie.
Ce travail est placé sous une licence Creative Commons Attribution 4.0 Licence Internationale.