Recherche technique sur la sûreté de l’IA
Les progrès de l’IA — bien qu’ils puissent être extrêmement bénéfiques — s’accompagnent de risques importants. Des risques qui, selon nous, pourraient être existentiels.
Mais ces risques peuvent être gérés.
En progressant dans la sûreté de l’IA, nous avons l’opportunité de développer l’IA pour faire le bien : des systèmes qui sont sûrs, éthiques et bénéfiques pour tout le monde.
Cet article explique comment vous pouvez aider.
Résumé
L’intelligence artificielle aura des effets transformateurs sur la société au cours des prochaines décennies, et pourrait apporter d’énormes avantages — mais nous pensons aussi qu’il existe un risque substantiel. Un moyen prometteur de réduire les risques de catastrophe liée à l’IA consiste à trouver des solutions techniques qui pourraient nous permettre d’empêcher les systèmes d’IA d’adopter des comportements dangereux.
Avantages
- Possibilité d’apporter une contribution significative à un domaine de recherche extrêmement important.
- Travail intellectuellement stimulant et intéressant.
- Le domaine a un grand besoin de chercheurs et d’ingénieurs qualifiés et est très négligé dans l’ensemble.
Inconvénients
- En raison d’une pénurie de cadres, il est difficile d’obtenir un emploi et il vous faudra peut-être un certain temps pour constituer le capital professionnel et l’expertise nécessaires.
- Vous devez disposer d’une solide formation quantitative.
- Il peut être très difficile de trouver des solutions.
- Le risque de nuire est réel.
Faits marquants sur l’adéquation
Vous aurez besoin d’une formation quantitative et devriez probablement aimer la programmation. Si vous n’avez jamais essayé la programmation, vous pouvez être un bon candidat si vous êtes capable de décomposer les problèmes en parties logiques, de générer et de tester des hypothèses, d’avoir la volonté d’essayer de nombreuses solutions différentes et d’être très attentif aux détails.
- Vous êtes un ingénieur logiciel solide, vous pourriez postuler à des rôles de collaborateur en recherche empirique dès maintenant (même si vous n’avez pas de formation en apprentissage automatique, bien que cela aide).
- Vous pourriez intégrer un programme dans le top 10 des doctorats en apprentissage automatique, ce qui vous mettrait sur la voie d’un poste de responsable de recherche.
- Vous avez une très bonne formation en mathématiques ou en informatique théorique, vous serez probablement bien placé pour la recherche sur l’alignement théorique.
Recommandé
Si vous êtes bien adapté à cette carrière, c’est peut-être le meilleur moyen pour vous d’avoir un impact social.
*Merci à Adam Gleave, Jacob Hilton et Rohin Shah pour la relecture de cet article. Et merci à Charlie Rogers-Smith pour son aide et son article sur le sujet — How to pursue a career in technical AI alignment.
Pourquoi la recherche technique sur la sûreté de l’IA a un fort impact
Comme nous l’avons soutenu, au cours des prochaines décennies, nous pourrions assister au développement de systèmes d’apprentissage automatique extrêmement puissants ayant le potentiel de transformer la société. Cette transformation pourrait apporter d’énormes avantages, mais seulement si nous en évitons les risques.
Nous pensons que les risques les plus graves liés aux systèmes IA découlent en grande partie du fait que les systèmes IA pourraient être désalignés — c’est-à-dire qu’ils chercheront à faire des choses que nous ne voulons pas qu’ils fassent. Nous pensons notamment qu’ils pourraient être désalignés de telle sorte qu’ils développent (et exécutent) des plans qui posent des risques pour la capacité de l’humanité à influencer le monde, même lorsque nous ne voulons pas perdre cette capacité.
Nous pensons que cela signifie que ces systèmes futurs représentent une menace existentielle pour la civilisation.
Même si nous trouvons un moyen d’éviter ce comportement de recherche de pouvoir, il existe toujours des risques substantiels — tels qu’une utilisation malveillante par les gouvernements ou d’autres acteurs — qui pourraient constituer des menaces existentielles en soi.
Il existe de nombreuses façons de réduire les risques que ces systèmes peuvent poser. Mais l’une des plus prometteuses pourrait être la recherche de solutions techniques qui empêchent les comportements indésirables — y compris les comportements désalignés — de la part des systèmes IA. (La recherche d’un moyen technique de prévenir le désalignement en particulier est connue sous le nom de « problème de l’alignement ».)
Au cours des dernières années, nous avons vu de plus en plus d’organisations commencer à prendre ces risques plus au sérieux. Bon nombre des principaux laboratoires industriels qui développent l’IA — notamment Google DeepMind et OpenAI — ont des équipes qui se consacrent à la recherche de ces solutions, aux côtés de groupes de recherche universitaires, notamment au MIT, à Oxford, à Cambridge, à l’université Carnegie Mellon et à l’université de Californie à Berkeley.
Cela dit, le domaine est encore très récent. Nous pensons qu’il n’y a qu’environ 300 personnes qui travaillent sur des approches techniques visant à réduire les risques existentiels des systèmes d’IAa, ce qui en fait un domaine très négligé.
Trouver des moyens techniques pour réduire ce risque pourrait s’avérer très difficile. Toute solution pratiquement utile doit conserver l’utilité des systèmes (en restant économiquement compétitive par rapport aux systèmes moins sûrs), et continuer à fonctionner à mesure que les systèmes s’améliorent au fil du temps (c’est-à-dire qu’elle doit être « amplifiable »). Comme nous l’avons expliqué dans notre profil du problème, il semble qu’il soit difficile de trouver des solutions viables, en particulier pour les systèmes modernes d’apprentissage automatique (AA).
(Si vous ne connaissez rien à l’AA, nous avons écrit une très très courte introduction à l’AA, et nous entrerons dans les détails sur la façon d’apprendre l’AA plus loin dans cet article. Par ailleurs, si vous avez de l’expérience dans le domaine de l’AA, adressez-vous à notre équipe — nous pouvons vous donner des conseils personnalisés en matière de carrière, vous présenter à d’autres personnes travaillant sur ces questions et peut-être même vous aider à trouver un emploi ou des possibilités de financement.)
Même si cela semble difficile, il existe de nombreuses pistes de recherche — et le domaine est vraiment très jeune, de sorte que de nouvelles directions de recherche prometteuses apparaissent en permanence. Nous pensons donc que cette cause a un potentiel d’amélioration modéré, même si nous sommes très incertains.
En fait, nous sommes incertains de tout cela et nous avons beaucoup écrit sur les raisons pour lesquelles nous pourrions nous tromper sur le risque lié à l’IA.
Mais, dans l’ensemble, nous pensons que — si vous avez une bonne adéquation avec ce domaine — se lancer dans la recherche technique sur la sûreté de l’IA pourrait bien être la meilleure façon de maximiser votre impact avec votre carrière.
Qu’est-ce que cette voie implique ?
La recherche technique en sûreté de l’IA implique généralement de travailler en tant que scientifique ou ingénieur dans de grands laboratoires d’IA, dans le milieu universitaire ou dans des organisations indépendantes à but non lucratif.
Ces postes peuvent être très difficiles à obtenir. Vous devrez probablement vous constituer un capital professionnel avant de vous retrouver dans un rôle à fort impact (nous y reviendrons plus tard, dans la section comment débuter). Cela dit, vous n’aurez peut-être pas besoin de passer beaucoup de temps à constituer ce capital professionnel — nous avons vu des personnes exceptionnellement talentueuses passer rapidement d’autres domaines quantitatifs à la sûreté de l’IA, parfois en moins d’un an.
La plupart des recherches techniques sur la sûreté de l’IA se situent sur un spectre entre la recherche empirique (expérimentation des systèmes actuels afin d’en apprendre davantage sur ce qui fonctionnera) et la recherche théorique (recherche conceptuelle et mathématique visant à garantir que les futurs systèmes IA seront sûrs).
Quelle que soit la position que vous occupez sur ce spectre, votre carrière peut être légèrement différente selon que vous souhaitez devenir responsable de recherche — proposer des projets, gérer une équipe et définir des orientations — ou collaborateur — vous concentrer sur l’exécution des travaux de recherche.
Enfin, il existe deux rôles légèrement différents que vous pouvez viser :
- Dans le monde universitaire, la recherche est souvent dirigée par des professeurs — la principale caractéristique d’un professeur est qu’il donne également des cours et encadre des étudiants de troisième cycle (et qu’il a besoin d’un doctorat).
- De nombreux collaborateurs en recherche empirique (mais pas tous) sont également des ingénieurs, souvent des ingénieurs logiciels. Nous nous concentrons ici sur les postes d’ingénieurs logiciels qui contribuent directement à la recherche sur la sûreté de l’IA (et qui requièrent souvent des connaissances en AA) — nous avons écrit sur l’ingénierie logicielle de manière plus générale dans une revue de carrière séparée.

Nous pensons que les postes de responsable de recherche ont probablement un impact plus fort en général. Mais dans l’ensemble, l’impact que vous pourriez avoir dans l’un de ces rôles est principalement déterminé par votre adéquation personnelle avec le poste — voir la section sur comment anticiper votre adéquation.
Ensuite, nous verrons ce qu’implique le fait de travailler dans chaque voie. Plus tard, nous verrons comment vous pouvez débuter dans chaque voie.
En quoi consiste le travail dans la voie empirique de la sûreté de l’IA ?
La sûreté empirique de l’IA tend à impliquer des équipes travaillant directement avec des modèles d’AA pour identifier les risques et développer des moyens de les atténuer.
Cela signifie que le travail est axé sur les techniques actuelles d’AA et les techniques qui pourraient être appliquées dans un futur très proche.
En pratique, travailler sur la sûreté empirique de l’IA implique beaucoup de programmation et d’ingénierie de l’AA. Vous pourriez, par exemple, trouver des moyens de tester la sécurité des systèmes existants, puis effectuer ces tests empiriques.
Vous pouvez trouver des postes en sûreté empirique de l’IA dans l’industrie et le milieu universitaire, ainsi que certains dans des organisations à but non lucratif axées sur la sûreté de l’IA.
Dans le monde universitaire en particulier, de nombreux travaux pertinents ne sont pas explicitement étiquetés comme étant axés sur le risque existentiel, mais ils peuvent néanmoins s’avérer très utiles. Par exemple, les travaux sur l’interprétabilité, les exemples antagonistes, les diagnostics et l’apprentissage par des portes dérobées, entre autres, pourraient être très utiles pour réduire la probabilité d’une catastrophe liée à l’IA.
Nous trouvons également prometteurs les travaux expérimentaux visant à élaborer des normes de sûreté auxquelles les entreprises d’IA pourraient adhérer à l’avenir — par exemple, les travaux menés par ARC Evals.
Pour en savoir plus sur les types de recherches menées dans les laboratoires axés sur la sûreté empirique de l’IA, jetez un coup d’œil à :
- L’approche d’OpenAI en matière de recherche sur l’alignement
- Le point de vue d’Anthropic sur la sûreté de l’IA
- Les points forts des recherches récentes de Redwood Research
- Les publications de l’équipe de sécurité de Google DeepMind
Bien que la programmation soit au cœur de tous les travaux empiriques, les responsables de recherche se concentrent généralement moins sur la programmation ; ils ont plutôt besoin d’un goût plus prononcé pour la recherche et d’une meilleure compréhension de la théorie. En comparaison, les collaborateurs de recherche doivent être très bons en programmation et en ingéniérie logicielle.
Qu’implique le travail dans la voie théorique de la sûreté de l’IA ?
La sûreté théorique de l’IA est beaucoup plus conceptuelle et mathématique. Elle implique souvent un raisonnement minutieux sur le comportement hypothétique des futurs systèmes.
En général, l’objectif est de trouver des propriétés dont nous souhaiterions doter les algorithmes d’AA pour qu’ils soient sûrs. Une fois que vous avez trouvé des propriétés utiles, vous pouvez essayer de développer des algorithmes avec ces propriétés (en gardant à l’esprit que pour être utiles dans la pratique, ces algorithmes devront être adoptés par l’industrie). Vous pouvez également développer des moyens de vérifier si les systèmes possèdent ces propriétés. Ces contrôles pourraient, par exemple, contribuer à faire respecter des normes de sûreté élevées pour les futurs produits d’IA.
De nombreuses personnes travaillant dans le domaine de la sûreté théorique de l’IA passeront une grande partie de leur temps à prouver des théorèmes ou à développer de nouveaux cadres mathématiques. Il existe également des approches plus conceptuelles, bien qu’elles aient encore tendance à faire un usage intensif de cadres formels.
Voici quelques exemples de recherche dans le domaine de la sûreté de l’IA théorique :
- Evan Hubinger et al. (2021) Risks from learned optimization in advanced machine learning systems, arXiv:1906.01820 [cs.AI].
- Paul Christiano, Ajeya Cotra & Mark Xu (2021) Eliciting Latent Knowledge, Alignment Research Center.
- Paul Christiano, Eric Neyman & Mark Xu (2022) Formalizing the presumption of independence, arXiv:2211.06738 [cs.AI].
- Zachary Kenton et al. (2022) Discovering agents, arXiv:2208.08345.
- Peter Barnett et al. (2023) Active reward learning from multiple teachers, arXiv:2303.00894 [cs.LG].
Il y a généralement moins de postes disponibles dans le domaine de la sûreté de l’IA théorique, en particulier en tant que collaborateurs de recherche. Des rôles de collaborateurs en recherche théorique existent dans des organisations à but non lucratif (principalement le Alignment Research Center), ainsi que dans certains laboratoires (par exemple, le travail d’Anthropic sur les modèles prédictifs de conditionnement et le Causal Incentives Working Group de Google DeepMind). La plupart des postes de collaborateurs dans la sûreté de l’IA théorique existent probablement dans le milieu universitaire (par exemple, des doctorants dans des équipes travaillant sur des projets pertinents pour la sûreté théorique de l’IA).
Quelques approches prometteuses de la sûreté de l’IA
Il existe de nombreuses approches techniques de la sûreté de l’IA actuellement étudiées. En voici quelques-unes :
- Apprentissage amplifiable à partir du retour informationnel humain. Des exemples incluent l’amplification itérative, la sécurité de l’IA par le débat, la construction d’assistants IA incertains de nos objectifs et qui les apprennent en interagissant avec nous, et d’autres façons de faire en sorte que les systèmes d’IA formés avec la descente de gradient stochastique rapportent fidèlement ce qu’ils savent.
- Modélisation des menaces. Un exemple de ce travail serait de démontrer la possibilité de capacités dangereuses, comme des systèmes d’IA trompeurs ou manipulateurs, ce qui nous permettrait d’étudier ces capacités. Vous pouvez en lire un aperçu dans un document récent de Google DeepMind. Ce travail se divise en travaux qui évaluent si un modèle a des capacités dangereuses (comme le travail de ARC Evals dans l’évaluation de GPT-4), et en travaux qui évaluent si un modèle causerait des dommages en pratique (comme la recherche d’Anthropic sur le comportement des grands modèles de langage et cet article sur la mauvaise généralisation des objectifs).
- Recherche sur l’interprétabilité. Ce travail consiste à étudier les raisons pour lesquelles les systèmes d’IA font ce qu’ils font et à essayer de les traduire en termes compréhensibles par les humains. Par exemple, cet article examine comment AlphaZero apprend les échecs, et cet article étudie la recherche de connaissances latentes dans les modèles de langage sans supervision. Cette catégorie comprend également l’interprétabilité mécanique — par exemple, Zoom in: an introduction to circuits. Pour en savoir plus, consultez ce rapport d’enquête, ainsi que les articles de Hubinger A transparency and interpretability tech tree et de Nanda A longlist of theories of impact for interpretability pour mieux comprendre comment la recherche sur l’interprétabilité pourrait réduire le risque existentiel lié à l’IA.
- Autres recherches contre l’utilisation malveillante pour réduire les risques de catastrophe causés par une utilisation malveillante des systèmes. (Nous avons écrit davantage à ce sujet dans notre profil de problème sur le risque de l’IA.) Par exemple, ce travail comprend la formation des IA afin qu’elles soient difficiles à utiliser à des fins dangereuses. (Notez qu’il y a beaucoup de recoupements avec les autres travaux de cette liste.)
- Recherche visant à accroître la robustesse des réseaux neuronaux. Ce travail consiste à s’assurer que le type de comportement que les réseaux neuronaux affichent lorsqu’ils sont exposés à un ensemble d’entrées se maintient lorsqu’ils sont exposés à des entrées auxquelles ils n’ont pas été exposés auparavant, afin d’empêcher les systèmes IA d’adopter un comportement dangereux. Voir la section 2 de Unsolved problems in ML safety pour plus d’informations.
- Participation à la construction d’une IA coopérative Trouver des moyens de s’assurer que même si les systèmes d’IA individuels semblent sûrs, ils ne produisent pas de mauvais résultats en interagissant avec d’autres systèmes sociotechniques. Pour en savoir plus, consultez Open problems in cooperative AI de Dafoe et al. ou la Cooperative AI Foundation. Cela semble particulièrement pertinent pour la réduction des « risques S ».
- Plus généralement, il existe quelques plans de sûreté unifiés. Pour en savoir plus, voir Hubinger, An overview of 11 proposals for building safe advanced AI, ou Karnofsky, How might we align transformative AI if it’s developed very soon?.b
Il convient de noter qu’il existe de nombreuses approches de la sûreté de l’IA et que les spécialistes ne sont pas du tout d’accord sur ce qui fonctionnera ou ne fonctionnera pas.
Cela signifie qu’une fois que vous travaillez dans le domaine, il peut être utile d’être charitable et prudent et de ne pas présupposer que le travail des autres est inutile simplement parce qu’il semble l’être à première vue. Vous devriez probablement aussi être incertain de votre propre programme de recherche.
De plus, comme nous l’avons mentionné précédemment, de nombreux travaux pertinents dans tous ces domaines ne sont pas explicitement qualifiés de travaux sur la « sûreté ».
Il est donc important de réfléchir attentivement à la manière dont une recherche particulière contribue à réduire les risques que les systèmes d’IA pourraient poser.
Quels sont les inconvénients de cette carrière ?
La recherche technique sur la sûreté de l’IA n’est pas le seul moyen de progresser dans la réduction des risques que les futurs systèmes d’IA pourraient poser. De plus, il existe de nombreux autres problèmes pressants dans le monde qui ne sont pas la possibilité d’une catastrophe liée à l’IA, et de nombreuses carrières qui peuvent aider à les résoudre. Si vous avez une meilleure adéquation avec autre chose, c’est probablement cela que vous devriez faire.
Au-delà de l’adéquation personnelle, cette carrière présente quelques autres inconvénients :
- Il peut être très compétitif d’entrer dans le domaine (bien qu’une fois que vous y êtes, les emplois sont bien payés et il y a beaucoup de solutions de repli).
- Vous avez besoin de compétences quantitatives et probablement de compétences en programmation.
- Le travail est géographiquement concentré dans seulement quelques lieux (principalement la Bay Area de Californie et Londres, mais il y a aussi des opportunités là où se trouvent des universités de premier plan comme Oxford, New York, Pittsburgh et Boston). Cela dit, le travail à distance est de plus en plus possible dans de nombreux laboratoires de recherche.
- Le potentiel d’amélioration d’un moyen technique de réduire les risques n’est peut-être pas très élevé. Bien que les évaluations de la difficulté varient et qu’il soit presque certainement possible de progresser, cela pourrait s’avérer très difficile. Ceci réduit l’impact que vous pourriez avoir en travaillant dans ce domaine. Cela dit, si vous commencez par un travail technique, vous pourriez être en mesure de passer à un travail de gouvernance, car ce travail bénéficie souvent d’une formation technique et d’une expérience de l’industrie, ce que la plupart des gens n’ont pas.
- Par ailleurs, il existe de nombreux désaccords dans le domaine sur ce qui pourrait fonctionner ; vous pourrez probablement trouver au moins quelques personnes qui pensent que ce sur quoi vous travaillez est inutile, quelle que soit la voie que vous empruntez.
- Plus important encore, il existe un risque de dommage involontaire. Tout en acquérant du capital professionnel et en travaillant sur la recherche elle-même, vous devrez prendre des décisions difficiles et juger si vous travaillez sur quelque chose de bénéfique (voir nos conseils anonymes sur le travail dans des postes qui font progresser les capacités de l’IA). Il y a un désaccord énorme sur les approches techniques de la sûreté de l’IA qui pourraient fonctionner — et parfois ce désaccord va jusqu’à avancer qu’une stratégie donnée va activement augmenter les risques existentiels de l’IA.
Enfin, nous avons écrit davantage sur les meilleurs arguments contre le fait que l’IA soit pressante dans notre profil de problème sur la prévention d’une catastrophe liée à l’IA. Si ces arguments sont justes, vous pourriez peut-être avoir plus d’impact en travaillant sur un autre problème.
Combien gagnent les chercheurs techniques en sûreté de l’IA ?
De nombreux chercheurs techniques travaillent dans des entreprises ou de petites start-ups qui offrent des salaires compétitifs par rapport à l’industrie technologique de la Bay Area et de la Silicon Valley, et même les organisations plus petites et les organisations à but non lucratif offrent des salaires compétitifs pour attirer les meilleurs talents. La rémunération médiane d’un ingénieur logiciel dans la Bay Area de San Francisco était de 222 000 $ par an en 2020c (Pour en savoir plus sur les salaires des ingénieurs logiciels).
Cette médiane de 222 000 $ est peut-être sous-estimée car les rôles dans l’IA, notamment dans les meilleurs laboratoires d’IA qui étendent rapidement leur travail dans l’IA, paient souvent mieux que d’autres emplois dans la technologie, et il en va de même pour les chercheurs en sûreté de l’IA — même ceux qui travaillent dans des organisations à but non lucratif.
Cependant, les universités ont des salaires plus bas que l’industrie en général, et nous pensons que les postes de recherche en sûreté de l’IA dans les universités sont moins bien rémunérés que dans les laboratoires commerciaux et les organisations à but non lucratif.
Comment anticiper votre adéquation personnelle
Vous aurez généralement besoin d’une formation quantitative (mais pas nécessairement d’une formation en informatique ou en apprentissage automatique) pour débuter dans cette carrière.
Il existe deux approches principales pour anticiper votre adéquation, et il est utile de faire les deux :
- Essayez : Essayez les premières étapes de la section ci-dessous sur l’apprentissage des bases. Si ce n’est pas déjà fait, essayez d’apprendre un peu de Python, ainsi que de suivre des cours d’algèbre linéaire, de calcul et de probabilité. Et si vous avez fait cela, essayez d’en apprendre un peu plus sur l’apprentissage profond et la sûreté de l’IA. Enfin, pour beaucoup de gens, la meilleure façon d’essayer serait de réellement obtenir un emploi en tant qu’ingénieur AA (qui ne travaille pas sur la sécurité) (consultez la section comment débuter pour en savoir plus).
- Discutez avec les gens pour savoir si cette voie vous conviendrait : Si vous souhaitez devenir chercheur technique, notre équipe souhaite probablement vous parler. Nous pouvons vous donner gratuitement des conseils personnalisés. Si vous connaissez quelqu’un qui travaille dans ce domaine (ou un domaine similaire), discutez avec lui de cette carrière et demandez-lui son avis en toute honnêteté. Vous pourrez peut-être rencontrer des personnes par l’intermédiaire de notre communauté. Nos conseillers peuvent également vous aider à établir des contacts.
Il faut du temps pour acquérir de l’expertise, et l’épanouissement peut suivre l’expertise — soyez donc prêt à prendre le temps d’apprendre et de pratiquer avant de décider de passer à autre chose.
Si vous n’êtes pas sûr des postes que vous pourriez viser à plus long terme, voici quelques façons approximatives d’envisager ce que vous devriez viser, et de déterminer si vous pourriez correspondre aux différents postes de cette carrière :
- Testez votre adéquation à la recherche empirique : Dans un billet de blog sur l’embauche de chercheurs en sécurité, l’équipe de Google DeepMind a déclaré « à titre de test approximatif pour le rôle d’ingénieur de recherche, si vous pouvez reproduire un article typique sur l’AA en quelques centaines d’heures et que vos intérêts s’alignent sur les nôtres, nous souhaitons probablement vous faire passer un entretien ».
- En ce qui concerne plus spécifiquement l’ingénierie logicielle, un responsable du recrutement chez Anthropic a déclaré que si vous pouvez, en quelques semaines de travail, écrire une nouvelle fonctionnalité complexe ou corriger un bogue très grave dans une bibliothèque d’AA majeure, ils voudront vous faire passer un entretien immédiatement. (Lire la suite.)
- Testez votre adéquation à la recherche théorique : Si vous auriez pu entrer dans un programme du top 10 des doctorats en mathématiques ou en informatique théorique si vous aviez optimisé votre premier cycle universitaire dans ce sens, c’est une bonne indication de votre adéquation (et de nombreux chercheurs ont effectivement obtenu ce type de doctorat). Le Alignment Research Center (l’une des rares organisations à recruter des collaborateurs en recherche théorique, en 2023) a déclaré qu’il était ouvert à l’embauche de personnes n’ayant aucune formation en recherche. Ils ont donné quatre tests d’adéquation : la créativité (par exemple, vous pouvez avoir des idées pour résoudre des problèmes ouverts dans le domaine, comme l’extraction de connaissances latentes) ; l’expérience de la conception d’algorithmes, de la démonstration de théorèmes ou de la formalisation de concepts ; une connaissance étendue des mathématiques et de l’informatique ; et avoir beaucoup réfléchi au problème de l’alignement de l’IA en particulier.
- Testez votre adéquation au poste de responsable de recherche (ou à un doctorat) : La grande majorité des responsables de recherche sont titulaires d’un doctorat. De même, de nombreux postes de recherche technique en sûreté de l’IA (mais certainement pas tous) requièrent un doctorat — et si ce n’est pas le cas, le fait d’avoir un doctorat (ou d’être le genre de personne qui pourrait en obtenir un) aiderait certainement à montrer que vous êtes un bon candidat pour le poste. Pour entrer dans l’un des 20 meilleurs programmes de doctorat en apprentissage automatique, vous devrez probablement publier un article d’atelier en tant que premier auteur, ainsi qu’un article de conférence en tant que troisième auteur lors d’une grande conférence sur l’AA (comme NeurIPS ou ICML). (En savoir plus sur la question de savoir si vous devriez faire un doctorat.)
Lisez notre article sur l’adéquation personnelle pour en savoir plus sur la manière d’évaluer votre adéquation aux carrières que vous souhaitez suivre.
Comment débuter
Il se peut que vous puissiez postuler à des postes immédiatement — notamment si vous remplissez, ou êtes sur le point de remplir, les critères que nous venons d’examiner — mais il se peut aussi qu’il vous faille un certain temps, voire plusieurs années, pour acquérir les compétences nécessaires.
Dans cette section, nous allons donc vous donner un guide pour débuter dans la recherche sur la sûreté technique de l’IA. Nous aborderons quatre questions clés :
- Comment apprendre les bases
- Devriez-vous faire un doctorat ?
- Comment obtenir un emploi dans la recherche empirique
- Comment obtenir un emploi dans la recherche théorique
Nous espérons qu’à la fin de cette section, vous aurez tout ce qu’il vous faut pour vous lancer.
Apprendre les bases
Pour arriver à quelque chose dans le monde de la recherche technique sur la sûreté de l’IA, vous aurez probablement besoin de connaissances de base en codage, mathématiques et apprentissage profond.
Vous pourriez également vouloir pratiquer suffisamment pour devenir un ingénieur AA convenable (bien que cela soit généralement plus utile pour la recherche empirique), et en apprendre un peu sur les techniques de sûreté en particulier (bien que cela soit généralement plus utile pour les responsables de recherche empirique et les chercheurs théoriques).
Nous allons passer en revue chacun de ces éléments à tour de rôle.
Apprendre à programmer
Vous devriez probablement apprendre à coder en Python car c’est le langage le plus utilisé en ingénierie AA.
La première étape consiste probablement à essayer. En tant que débutant complet, vous pouvez écrire un programme Python en moins de 20 minutes qui vous rappelle de faire une pause toutes les deux heures. Ne vous découragez pas si votre code ne fonctionne pas du premier coup — c’est ce qui arrive normalement quand on code !
Une fois que vous avez fait cela, vous avez quelques options :
- Apprenez à programmer par vous-même Essayez de suivre un cours gratuit pour débutants comme Automate the Boring Stuff with Python d’Al Sweigart. Il existe également de nombreux cours d’introduction à l’informatique et à la programmation en ligne, notamment : Intro to Computer Science d’Udacity, Introduction à l’informatique et à la programmation du MIT, et Méthodologie de la programmation de Stanford. Ensuite, essayez de trouver quelque chose que vous voulez construire, et construisez-le — ou participez à un projet open-source. Pour vous entraîner aux entretiens d’embauche, essayez leetcode ou TopCoder, ou les exercices dans Cracking the Coding Interview de Gayle McDowell.
- Prenez un cours à l’université. Si vous êtes à l’université, c’est une excellente option car cela vous permet d’apprendre la programmation alors que le coût d’opportunité de votre temps est plus faible. Vous pouvez même envisager de vous spécialiser en informatique (ou dans une autre matière impliquant beaucoup de programmation).
- Apprenez sur le tas. Si vous pouvez trouver des stages, vous acquerrez une expérience pratique et des compétences que vous n’auriez pas acquises dans un cursus universitaire.
- Allez à un camp d’entraînement. Les camps d’entraînement au codage ont pour objectif d’amener les personnes ayant peu de connaissances en programmation à un emploi aussi bien rémunéré que possible en l’espace de quelques mois — bien que certains affirment que les perspectives à long terme ne sont pas aussi bonnes parce que vous n’avez pas une compréhension approfondie de l’informatique. Course Report est un excellent guide pour choisir un camp d’entraînement. Veillez à éviter les camps d’entraînement de mauvaise qualité. Vous pouvez également trouver des camps d’entraînement en ligne — pour les personnes complètement novices en programmation — axés sur l’AA, comme le Python for Data Science and Machine Learning Bootcamp d’Udemy.
Vous pouvez en savoir plus sur l’apprentissage de la programmation — et sur comment obtenir votre premier emploi dans l’ingénierie logicielle (si c’est la voie que vous voulez suivre) — dans notre revue de carrière sur l’ingénierie logicielle.
Apprendre les mathématiques
Les mathématiques de l’apprentissage profond reposent fortement sur le calcul et l’algèbre linéaire, et les statistiques peuvent également être utiles — bien qu’en général l’apprentissage des mathématiques soit beaucoup moins important que la programmation et les fondamentaux de l’AA.
Nous vous recommandons généralement de suivre un cursus quantitatif (comme les mathématiques, l’informatique ou l’ingénierie), dont la plupart couvrent assez bien ces trois domaines.
Si vous voulez devenir bon en maths, vous devez résoudre des problèmes. C’est pourquoi, en général, la chose la plus utile que les manuels et les cours en ligne fournissent n’est pas leurs explications, mais une série d’exercices à essayer de résoudre, dans l’ordre, avec de l’aide si vous êtes bloqué.
Si vous souhaitez vous former par vous-même (surtout si vous n’avez pas de formation quantitative), voici quelques ressources possibles :
- Calcul : La série de vidéos de 3blue1brown sur le calcul pourrait être un bon point de départ. Vous pouvez également suivre des cours universitaires enregistrés : Le calcul à une variable du MIT (qui ne requiert que l’algèbre et la trigonométrie du lycée), suivi du cours du MIT sur le calcul vectoriel et multivariable.
- Algèbre linéaire : Là encore, nous vous suggérons de commencer par la série de vidéos sur l’algèbre linéaire de 3blue1brown. Dans son billet sur les carrières en alignement technique, Rogers-Smith recommande Linear Algebra Done Right par Sheldon Axler. Enfin, si vous préférez les cours magistraux, essayez le cours d’algèbre linéaire de premier cycle du MIT (notez toutefois que ce cours suppose des connaissances en calcul multivarié).
- Probabilité : Jetez un coup d’œil au cours de premier cycle du MIT sur les probabilités et les variables aléatoires.
Vous pourrez peut-être trouver des ressources qui couvrent tous ces domaines, comme Les mathématiques pour l’apprentissage automatique de l’Imperial College.
Apprendre l’apprentissage automatique de base
Vous devrez probablement avoir une bonne compréhension de la manière dont les systèmes d’IA sont actuellement développés. Cela implique d’apprendre l’apprentissage automatique et les réseaux neuronaux, avant de plonger dans des sous-domaines spécifiques de l’apprentissage profond.
Là encore, vous avez la possibilité de suivre cette formation à l’université. Si vous êtes actuellement à l’université, cela vaut la peine de vérifier si vous pouvez suivre un cours d’AA même si vous ne vous spécialisez pas en informatique.
Il y a une mise en garde importante à faire : vous apprendrez énormément de choses sur le tas, et la quantité de connaissances que vous devrez acquérir à l’avance pour n’importe quel poste ou cours variera énormément ! Même les universitaires de haut niveau ne connaissent pas tout de leur domaine. Cela vaut la peine d’essayer de déterminer ce que vous devrez savoir pour le poste que vous souhaitez occuper avant d’investir des centaines d’heures dans l’apprentissage de l’AA.
En gardant cette mise en garde à l’esprit, voici quelques suggestions de pistes si vous voulez apprendre les bases par vous-même :
- La série de 3blue1brown sur les réseaux neuronaux est un excellent point de départ pour les débutants.
- Lorsque j’apprenais, j’ai utilisé Neural Networks and Deep Learning — il s’agit d’un manuel en ligne, utile si vous êtes familier avec les mathématiques, avec également quelques exercices utiles.
- Des cours d’introduction en ligne comme fast.ai (axé sur les applications pratiques), Full Stack Deep Learning, et les différents cours sur deeplearning.ai.
- Pour plus de détails, consultez les cours universitaires tels que Introduction à l’apprentissage automatique du MIT, L’apprentissage profond de l’Université de New York pour encore plus de détails. Nous vous recommandons également la série de conférences de Google DeepMind.
PyTorch est un package très courant utilisé pour la mise en œuvre des réseaux neuronaux, et cela vaut probablement la peine de l’apprendre ! Lorsque je me suis initié à l’AA, mon premier réseau neuronal était un réseau neuronal convolutif à 3 couches avec régularisation L2 classant les caractères de la base de données MNIST. Il s’agit d’un premier défi assez courant et d’un bon moyen d’apprendre PyTorch.
Apprendre la sûreté de l’IA
Si vous souhaitez travailler en tant que chercheur en sûreté de l’IA, il est généralement utile de connaître certaines choses sur la sûreté de l’IA.
Ce n’est pas toujours le cas — certaines fonctions d’ingénierie ne nécessitent pas de connaissances approfondies en matière de sûreté de l’IA. Mais même dans ce cas, le fait de connaître les bases vous aidera probablement à décrocher un poste, et peut également vous aider à prendre des décisions difficiles et à éviter de faire de nuire. Et si vous voulez être en mesure d’identifier et d’effectuer un travail utile, vous devrez finir par vous familiariser avec le domaine.
Ce domaine étant encore très récent, il n’existe probablement pas (encore) de cours universitaires que vous puissiez suivre. Vous devrez donc vous former par vous-même. Voici quelques pistes pour commencer :
- La section 3 de notre profil de problème sur la prévention d’une catastrophe liée à l’IA fournit une introduction aux problèmes que la sûreté de l’IA tente de résoudre (avec un accent particulier sur l’alignement).
- La chaîne YouTube de Rob Miles regorge de vidéos d’introduction populaires et bien expliquées qui ne nécessitent pas beaucoup de connaissances de base en matière d’AA.
- AXRP — le podcast de recherche sur le risque-X de l’IA — est rempli de conversations approfondies (et agréables) avec des chercheurs sur leur recherche.
- Les cours des Fondamentaux de la sûreté de l’IA, en particulier le Cours sur l’alignement de l’IA, éventuellement suivi de Alignement 201, qui fournissent une introduction à la recherche sur le problème de l’alignement.
- Introduction à la sûreté de l’IA, un cours du Centre pour la sûreté de l’IA se concentre sur la résistance aux risques (« robustesse »), l’identification des risques (« surveillance ») et la réduction des risques systémiques (« sûreté systémique »), ainsi que sur l’alignement.
Pour d’autres suggestions — notamment pour lire des ressources sur la nature des risques auxquels nous pourrions être confrontés de la part des systèmes IA — jetez un coup d’œil aux meilleures ressources pour en savoir plus de notre profil de problème.
Devriez-vous faire un doctorat ?
Certains postes de recherche technique requièrent un doctorat, mais ce n’est pas le cas pour beaucoup d’entre eux, et le doctorat n’est pas la meilleure option pour tout le monde.
Le principal avantage d’un doctorat est probablement de vous entraîner à définir et à mettre en œuvre votre propre programme de recherche. Par conséquent, l’obtention d’un doctorat est pratiquement la solution par défaut si vous souhaitez devenir responsable de recherche.
Cela dit, vous pouvez également devenir responsable de recherche sans doctorat, notamment en évoluant à partir d’un rôle de collaborateur de recherche. Dans certains grands laboratoires, la frontière entre le rôle de collaborateur et celui de responsable est de plus en plus floue.
De nombreuses personnes trouvent les doctorats très difficiles. Ils peuvent être source d’isolement et de frustration, et durer très longtemps (4 à 6 ans). De plus, votre qualité de vie et la quantité d’informations que vous apprendrez dépendront de votre directeur de thèse, et il peut être très difficile de savoir à l’avance si vous faites le bon choix.
Par conséquent, si vous envisagez de faire un doctorat, voici quelques points à prendre en considération :
- Votre vision à long terme : Si vous avez l’intention de devenir responsable de recherche, cela signifie que vous devriez faire un doctorat — la grande majorité des responsables de recherche sont titulaires d’un doctorat. Si vous voulez surtout être collaborateur (par exemple, ingénieur AA ou ingénieur logiciel), cela signifie que vous pourriez ne pas vouloir faire de doctorat. Si vous n’êtes pas sûr, vous devriez essayer de faire quelque chose pour tester votre adéquation avec chaque rôle, comme essayer un projet ou un stage. Vous pourriez essayer un rôle d’assistant de recherche pré-doctoral — si la recherche que vous faites est pertinente pour votre future carrière, cela peut être une bonne opportunité de développer du capital professionnel, que vous fassiez ou non un doctorat.
- Le sujet de votre recherche : Il est facile de se laisser enfermer dans un sujet de doctorat dont on n’est pas sûr. Si le doctorat que vous envisagez vous permet de travailler sur quelque chose qui semble utile pour la sûreté de l’IA, c’est probablement — toutes choses égales par ailleurs — mieux pour votre carrière, et la recherche elle-même peut également avoir un impact positif.
- Mentorat : À quoi ressemblent les superviseurs ou les responsables des opportunités qui s’offrent à vous ? Vous pourriez être en mesure de trouver des postes d’ingénieur AA ou de chercheur dans l’industrie où vous pourriez apprendre beaucoup plus que dans le cadre d’un doctorat — ou vice versa. Lorsque vous choisissez un directeur de thèse, essayez de contacter ses étudiants actuels ou anciens et posez-leur des questions franches. (Consultez également cet article pour savoir comment choisir un directeur de thèse.)
- Votre adéquation à l’environnement de travail : Faire un doctorat signifie travailler seul, avec très peu de supervision ou de retour d’information, pendant de longues périodes. Certaines personnes s’épanouissent dans ces conditions ! Mais d’autres n’y parviennent pas et trouvent le doctorat extrêmement difficile.
Pour en savoir plus, consultez notre revue plus détaillée (mais moins à jour) des doctorats en apprentissage automatique.
Il convient de rappeler que la plupart des emplois ne nécessitent pas de doctorat. Et pour certains emplois, notamment les postes de collaborateurs en recherche empirique, même si un doctorat serait utile, il existe souvent de meilleures façons d’obtenir le capital professionnel dont vous avez besoin (par exemple, en travaillant en tant qu’ingénieur logiciel ou ingénieur AA). Nous avons interviewé deux ingénieurs AA qui ont eu une carrière extrêmement fructueuse sans obtenir de doctorat.
Le choix d’un doctorat ne dépend pas (beaucoup) de l’échéancier
Nous pensons qu’il est plausible que l’on développe une IA susceptible de transformer radicalement la société d’ici la fin des années 2030.
Toutes choses égales par ailleurs, cette possibilité pourrait plaider pour essayer d’avoir un impact tout de suite, plutôt que de passer cinq ans (ou plus) à faire un doctorat.
En fin de compte, le degré d’adéquation entre vous, en particulier, et un doctorat particulier est probablement un facteur beaucoup plus important que le moment où l’IA sera développée.
En d’autres termes, nous pensons que l’augmentation de l’impact causée par le choix d’une voie qui vous convient est probablement plus importante que la diminution de l’impact causée par le report de vos travaux. Cela s’explique en partie par le fait que l’écart d’impact causé par les rôles spécifiques qui vous sont proposés, ainsi que par votre adéquation personnelle à ces rôles, est généralement très important. Certains postes (en particulier les postes de responsable de recherche) exigent un doctorat, d’autres non (en particulier les postes plus axés sur l’ingénierie) — et l’adéquation entre les personnes et ces voies varie considérablement.
Nous sommes également très incertains quant aux estimations concernant le moment où nous pourrions développer une IA transformatrice. Cette incertitude réduit le coût espéré de tout retard.
Plus important encore, nous pensons que les doctorats ne devraient pas être considérés comme un pur retard à votre impact. Vous pouvez effectuer un travail utile dans le cadre d’un doctorat et, en règle générale, les deux premières années d’une carrière comportent une part importante d’apprentissage des bases et de mise à niveau. Donc, si vous avez un bon mentor, un bon environnement de travail et un bon choix de sujet, votre travail de doctorat peut être aussi bon, voire meilleur, que celui que vous feriez si vous alliez travailler ailleurs au début de votre carrière. Et si vous recevez soudain la preuve que nous disposons de moins de temps que prévu, il est relativement facile d’abandonner votre doctorat.
Il y a beaucoup d’autres aspects à prendre en compte — pour une vue d’ensemble et une discussion, voir ce billet d’Alex Lawsen, conseiller de 80 000 Hours, ainsi que les commentaires.
Dans l’ensemble, nous suggérons qu’au lieu de vous inquiéter d’un retard dans votre impact, vous pensiez plutôt à la voie à long terme que vous voulez suivre et à la manière dont les opportunités spécifiques qui se présentent à vous vous permettront d’y parvenir.
Comment intégrer un doctorat
Les doctorats en AA peuvent être très compétitifs. Pour être admis, vous aurez probablement besoin de quelques publications (comme nous l’avons dit plus haut, quelque chose comme un article d’atelier en premier auteur, ainsi qu’un article de conférence en troisième auteur lors d’une conférence majeure sur les AA (comme NeurIPS ou ICML), et des références, probablement d’universitaires spécialisés dans les AA. (Cela dit, les publications sont aussi utiles, quelle que soit la voie dans laquelle vous vous engagez !)
Pour en arriver à ce stade, vous aurez besoin de pas mal de chance, et vous devrez également trouver des moyens d’acquérir une expérience de la recherche.
L’une des options est de faire un master en AA, mais assurez-vous qu’il s’agit d’un master de recherche — la plupart des masters en AA se concentrent principalement sur la préparation à l’industrie.
Mieux encore, essayez d’obtenir un stage dans un groupe de recherche en intelligence artificielle. Parmi les possibilités, citons RISS à l’université Carnegie Mellon, UROP à l’Imperial College London, le programme international de recherche d’été de l’Aalto Science Institute, le Data Science Summer Institute, le programme de stage de l’Institut technologique Toyota et le MILA. Vous pouvez également essayer de faire un stage spécifiquement en sûreté de l’IA, par exemple à CHAI, bien que cette approche présente des inconvénients : il peut être plus difficile de publier, et le mentorat peut être plus limité.
Une autre façon d’acquérir une expérience en matière de recherche consiste à demander si vous pouvez travailler avec des chercheurs. Si vous êtes déjà dans une université de premier plan, il peut être plus facile de contacter des personnes travaillant dans l’université où vous étudiez.
Les étudiants en doctorat ou les postdoctorants peuvent être plus réactifs que les professeurs, mais vous aurez éventuellement besoin de quelques professeurs avec lesquels vous avez travaillé pour fournir des références, et vous devrez donc prendre contact avec eux. Les professeurs ont tendance à recevoir beaucoup de courriels non sollicités, alors essayez d’attirer leur attention ! Vous pouvez essayer :
- Que quelqu’un vous présente, par exemple un professeur avec qui vous avez pris un cours.
- De mentionner ce que vous avez fait (vos notes, les cours pertinents que vous avez suivis, votre GitHub, tout article de recherche sur l’AA que vous avez tenté de reproduire à titre d’entraînement)
- Lire certains de leurs articles et les principaux articles dans le domaine, et les mentionner dans l’email
- Faire une demande de financement disponible pour les étudiants qui veulent travailler dans le domaine de la sûreté de l’IA, et faire savoir aux gens que vous avez obtenu un financement pour travailler avec eux.
Idéalement, vous trouverez quelqu’un qui vous supervise bien et qui a le temps de travailler avec vous (cela ne veut pas nécessairement dire le professeur le plus célèbre — bien que cela aide beaucoup s’il publie régulièrement dans des conférences de premier plan). De cette manière, il apprendra à vous connaître, vous pourrez l’impressionner et il constituera une excellente référence lorsque vous postulerez pour un doctorat.
Il est tout à fait possible que, pour obtenir les publications et les références dont vous aurez besoin pour accéder à un doctorat, vous deviez passer un an ou deux à travailler en tant qu’assistant de recherche, bien que ces postes puissent également être très compétitifs.
Ce guide d’Adam Gleave explique également en détail comment obtenir un doctorat, y compris où postuler et des conseils sur le processus de candidature en tant que tel. Nous discutons plus en détail des doctorats en apprentissage automatique dans notre revue de carrière sur les doctorats en apprentissage automatique (bien qu’elle soit plus ancienne que cette revue de carrière).
Obtenir un emploi dans la recherche empirique sur la sûreté de l’IA
En fin de compte, la meilleure façon d’apprendre à faire de la recherche empirique — en particulier pour les postes de collaborateurs et d’ingénieurs — est de travailler dans un endroit qui fait à la fois de l’ingénierie de haute qualité et de la recherche de pointe.
Les trois meilleurs laboratoires sont probablement Google DeepMind (qui propose des stages aux étudiants), OpenAI (qui a un programme de résidence de 6 mois) et Anthropic. (Travailler dans un laboratoire d’IA de premier plan comporte un certain risque de nuire, il est donc important de bien réfléchir aux options qui s’offrent à vous. Nous avons rédigé un article distinct qui passe en revue les principales considérations pertinentes.)
Pour finir par travailler dans le domaine de la recherche empirique, vous devrez probablement vous constituer un capital professionnel.
Que vous souhaitiez devenir un responsable de recherche ou un collaborateur, il vous sera utile de devenir un très bon ingénieur logiciel. Les meilleurs moyens d’y parvenir consistent généralement à trouver un emploi d’ingénieur logiciel dans une grande entreprise technologique ou dans une startup prometteuse. (Nous avons écrit un article entier sur comment devenir ingénieur logiciel.)
De nombreux rôles vous demanderont d’être un bon ingénieur AA, ce qui signifie aller plus loin que les bases que nous avons examinées ci-dessus. La meilleure façon de devenir un bon ingénieur en AA est d’ obtenir un emploi en ingénierie AA — et les meilleurs endroits pour cela sont probablement les principaux laboratoires d’IA.
Pour les postes de responsable de recherche, vous aurez besoin d’une expérience relativement plus importante dans le domaine de la recherche. Il vous faudra d’abord devenir un collaborateur de recherche ou passer par le monde universitaire (par exemple en obtenant un doctorat).
Cela dit, il est important de se rappeler qu’il n’est pas nécessaire de tout savoir pour commencer à postuler car vous apprendrez inévitablement beaucoup sur le tas — donc essayez de savoir ce que vous devrez apprendre pour décrocher les postes spécifiques que vous envisagez d’occuper.
De quelle expérience avez-vous besoin pour obtenir un emploi ? Il est utile de réitérer les tests que nous avons évoqués plus haut pour les postes de collaborateur :
- Dans un billet de blog sur l’embauche de chercheurs en sécurité, l’équipe de Google DeepMind a déclaré « à titre de test approximatif pour le rôle d’ingénieur de recherche, si vous pouvez reproduire un article typique sur l’AA en quelques centaines d’heures et que vos intérêts s’alignent sur les nôtres, nous souhaitons probablement vous faire passer un entretien ».
- En ce qui concerne plus spécifiquement l’ingénierie logicielle, un responsable du recrutement chez Anthropic a déclaré que si vous pouvez, en quelques semaines de travail, écrire une nouvelle fonctionnalité complexe ou corriger un bogue très grave dans une bibliothèque de AA majeure, ils voudront vous interviewer immédiatement. (Lire la suite.)
En acquérant cette expérience, vous pourriez finir par travailler dans des postes qui font progresser les capacités de l’IA. Les avis sont partagés sur l’impact potentiellement négatif que cela pourrait avoir, c’est pourquoi nous vous conseillons de lire notre article sur le travail dans les principaux laboratoires d’IA et notre article contenant des conseils anonymes d’experts sur le travail dans des fonctions qui font progresser les capacités. Cela vaut également la peine de parler à notre équipe des possibilités spécifiques qui s’offrent à vous.
Si vous avez un autre emploi ou un diplôme, ou si vous pensez avoir besoin d’en apprendre davantage avant d’essayer de changer de carrière, il existe quelques bonnes façons d’acquérir plus d’expérience en ingénierie AA qui vont au-delà des bases que nous avons déjà évoquées :
- Gagner de l’expérience en ingénierie logicielle / AA Par exemple, si vous êtes étudiant, vous pouvez essayer de faire un stage en tant qu’ingénieur logiciel pendant l’été. DeepMind propose des stages aux étudiants ayant fait au moins deux ans d’études dans un domaine technique,
- Reproduire des articles. Un excellent moyen d’acquérir de l’expérience en ingénierie AA est de reproduire certains articles dans le sous-domaine dans lequel vous souhaiteriez travailler. Richard Ngo, chercheur en gouvernance de l’IA à OpenAI, a écrit quelques conseils sur la reproduction d’articles. Mais gardez à l’esprit qu’il peut être assez difficile de reproduire des articles — jetez un coup d’œil au blog d’Amid Fish sur ce qu’il a appris en reproduisant un article sur l’apprentissage par renforcement profond. Enfin, Rogers-Smith propose quelques suggestions d’articles à reproduire. Si vous passez du temps à reproduire des articles, n’oubliez pas que lorsque vous postulerez à des postes, ce sera vraiment utile de pouvoir prouver que vous avez fait ce travail. Alors, essayez de télécharger votre travail sur GitHub ou d’écrire un blog sur vos progrès. Et si vous envisagez d’y consacrer beaucoup de temps (plus de 100 heures, par exemple), essayez d’obtenir un retour sur les articles que vous comptez reproduire avant de commencer — vous pourriez même contacter un laboratoire pour lequel vous souhaitez travailler.
- Prendre ou suivre un cours plus approfondi en recherche empirique sur la sûreté de l’IA Redwood Research a organisé le camp d’entraînement MLAB, et vous pouvez demander l’accès à leur programme ici. Vous pouvez également jeter un coup d’œil à ce programme d’apprentissage profond de Jacob Hilton, chercheur à l’Alignment Research Center — bien qu’il soit probablement très difficile sans mentorat.d L’Alignment Research Engineer Accelerator est un programme qui utilise ce curriculum. Certains mentors du SERI AA Alignment Theory Scholars Program se concentrent sur la recherche empirique.
- Apprendre un sous-domaine de l’apprentissage profond. Nous vous suggérons notamment le traitement du langage naturel (en particulier les transformateurs — voir cette conférence comme point de départ) et l’apprentissage par renforcement (jetez un coup d’œil à Deep Reinforcement Learning: Pong from Pixels d’Andrej Karpathy, et à Spinning Up in Deep RL d’OpenAI). Essayez d’arriver au point où vous connaissez les avancées récentes les plus importantes.
Obtenir un emploi dans la recherche théorique sur la sûreté de l’IA
Il y a moins d’emplois disponibles dans la recherche théorique sur la sûreté de l’IA, il est donc plus difficile de donner des conseils concrets. Il n’est pas toujours nécessaire d’avoir un doctorat en mathématiques ou en informatique théorique, mais ce type de diplôme est assez courant parmi les chercheurs de l’industrie, et il est globalement nécessaire pour être universitaire.
Si vous obtenez un doctorat, l’idéal serait qu’il porte sur un domaine au moins partiellement lié à la recherche théorique sur la sûreté de l’IA. Par exemple, il pourrait s’agir de la théorie des probabilités appliquée à l’IA ou d’informatique théorique (recherchez des chercheurs qui publient dans COLT ou FOCS).
Une autre solution consiste à devenir responsable de recherche empirique avant de passer à la recherche théorique.
Par rapport à la recherche empirique, vous devrez en savoir relativement moins sur l’ingénierie et relativement plus sur le domaine de la sûreté de l’IA.
Une fois que vous aurez appris les bases, vous pourriez essayer de lire des articles d’un chercheur particulier, ou sur un sujet particulier, et de résumer ce que vous avez trouvé.
Vous pouvez également passer un certain temps (peut-être 10 à 100 heures) à lire sur un sujet, puis passer un peu plus de temps (peut-être encore 10 à 100 heures) à essayer de trouver de nouvelles idées sur ce sujet. Par exemple, vous pourriez essayer de formuler des propositions pour résoudre le problème de l’extraction des connaissances latentes. Par ailleurs, si vous souhaitez vous concentrer sur un aspect plus mathématique, vous pouvez essayer de faire le devoir à la fin de cette conférence de Michael Cohen, un étudiant de troisième cycle à l’université d’Oxford.
Si vous voulez entrer dans le monde universitaire, il semble particulièrement important de lire une tonne d’articles. Essayez peut-être de rédiger un article sur un certain sujet pendant votre temps libre. C’est un excellent moyen de maîtriser un sujet, de susciter de nouvelles idées, de repérer les lacunes et de trouver des idées de recherche. Lorsque vous postulez à des études supérieures ou à un emploi, votre article est un excellent moyen de montrer que vous aimez la recherche au point d’en faire pour le plaisir.
Il existe des programmes de recherche destinés aux nouveaux venus dans le domaine, tels que le SERI AA Alignment Theory Scholars Program, auquel vous pourriez postuler.
D’autres moyens d’acquérir une expérience plus concrète consistent à effectuer des stages de recherche, à travailler en tant qu’assistant de recherche ou à obtenir un doctorat, autant de sujets que nous avons abordés plus haut, dans la section si et comment vous pouvez intégrer un programme de doctorat.
Il convient de noter que de nombreuses personnes avec lesquelles nous discutons essaient d’apprendre de manière indépendante. Cela peut être une excellente idée pour certains, mais c’est assez difficile pour beaucoup, parce qu’il y a beaucoup moins de structure et de mentorat.
Organisations recommandées
Les laboratoires de sûreté de l’IA dans l’industrie qui ont des équipes de sûreté technique empiriques, ou qui se concentrent entièrement sur la sûreté :
- Anthropic est une entreprise de sûreté de l’IA qui travaille sur la construction de systèmes d’IA interprétables et sûrs. Elle se concentre sur la recherche empirique en matière de sûreté de l’IA. Daniela et Dario Amodei, cofondateurs d’Anthropic, ont donné une interview sur le laboratoire dans le podcast du Future of Life Institute. Dans notre podcast, nous avons parlé à Chris Olah, qui dirige les recherches d’Anthropic sur l’interprétabilité, et à Nova DasSarma, qui travaille sur l’infrastructure des systèmes à Anthropic.
- L’ARC Evals travaille à l’évaluation des risques que les systèmes d’IA de pointe pourraient faire courir à la civilisation, notamment via des travaux expérimentaux préliminaires visant à développer des techniques et à évaluer les systèmes produits par Anthropic et OpenAI.
- Le Center for AI Safety est une organisation à but non lucratif qui effectue des recherches techniques et promeut la sûreté dans la communauté élargie de l’apprentissage automatique.
- Le FAR AI est un organisme de recherche à but non lucratif qui incube et accélère des programmes de recherche trop gourmands en ressources pour le monde universitaire, mais pas encore prêts à être commercialisés par l’industrie, notamment la recherche sur la robustesse antagoniste, l’interprétabilité et l’apprentissage des préférences.
- Google DeepMind est probablement le groupe de recherche le plus important et le plus connu qui développe une intelligence artificielle générale des machines, et il est célèbre pour son travail de création d’AlphaGo, d’AlphaZero, et d’AlphaFold. Il ne se concentre pas sur la sûreté, mais compte deux équipes axées sur la sûreté de l’IA : l’Équipe d’alignement amplifiable axée sur l’alignement des systèmes de pointe existants, et l’Équipe d’alignement axée sur les paris de recherche pour l’alignement des systèmes futurs.
- OpenAI, fondé en 2015, est un laboratoire qui tente de construire une intelligence artificielle générale sûre et bénéficiant à l’ensemble de l’humanité. OpenAI est bien connu pour ses modèles de langage comme GPT-4. Comme DeepMind, il ne se focalise pas sur la sûreté, mais dispose d’une équipe chargée de la sûreté et d’une équipe chargée de la gouvernance. Jan Leike (codirigeant de l’équipe de superalignement) a publié quelques articles de blog sur sa conception de l’alignement de l’IA.
- Ought est un laboratoire d’apprentissage automatique qui construit Elicit, un assistant de recherche en IA. Leur objectif est d’aligner le raisonnement ouvert en apprenant les étapes du raisonnement humain, et d’orienter les progrès de l’IA vers l’aide à l’évaluation des preuves et des arguments.
- Redwood Research est un organisme de recherche sur la sûreté de l’IA, dont le premier grand projet visait à s’assurer que les modèles de langage (comme GPT-3) produisent des sorties conformes à certaines règles avec une probabilité très élevée, afin de traiter les modes de défaillance trop rares pour apparaître dans l’entraînement standard.
Laboratoires de sûreté de l’IA théoriques/conceptuels :
- L’Alignment Research Center (ARC) tente de produire des stratégies d’alignement qui pourraient être adoptées par l’industrie aujourd’hui tout en étant capables de s’étendre aux systèmes futurs. Il se concentre sur le travail conceptuel en développant des stratégies sur l’alignement qui pourraient être prometteuses pour le travail empirique, plutôt que de faire lui-même du travail empirique sur l’IA. Leur premier projet a été la publication d’un rapport sur l’extraction des connaissances latentes, le problème qui consiste à s’assurer que les systèmes IA avancés nous disent honnêtement ce qu’ils croient (ou « croient ») à propos du monde. Dans notre podcast, nous avons interviewé Paul Christiano, fondateur de l’ARC, sur ses recherches (avant qu’il ne fonde l’ARC).
- Le Center on Long-Term Risk travaille sur les risques les plus graves liés à l’IA avancée. Il se concentre sur les conflits entre les systèmes d’IA.
- Le Machine Intelligence Research Institute a été l’un des premiers groupes à se préoccuper des risques liés à l’intelligence artificielle au début des années 2000, et son équipe a publié un certain nombre d’articles sur les problèmes de sûreté et la manière de les résoudre.
- Certaines équipes de laboratoires commerciaux effectuent également des travaux plus théoriques et conceptuels sur l’alignement, comme les travaux d’Anthropic sur les modèles prédictifs de conditionnement et le groupe de travail sur les incitations causales de Google DeepMind.
La sûreté de l’IA dans le milieu universitaire (liste très peu exhaustive ; bien que le nombre d’universitaires se concentrant explicitement et publiquement sur la sûreté de l’IA soit faible, il est possible d’effectuer un travail pertinent dans un ensemble beaucoup plus large de domaines) :
- Le groupe d’alignement algorithmique du laboratoire d’informatique et d’intelligence artificielle du MIT, dirigé par Dylan Hadfield-Menell.
- Le Centre pour une IA compatible avec les humains à l’université de Californie à Berkeley, dirigé par Stuart Russell, se concentre sur la recherche universitaire visant à garantir que l’IA est sûre et bénéfique pour les humains. (Notre podcast avec Stuart Russell examine son approche visant à rendre l’IA démonstrativement bénéfique.)
- Le groupe de recherche de Jacob Steinhardt au sein du département des statistiques de l’université de Californie à Berkeley.
- Le groupe de recherche sur l’alignement de l’université de New York dirigé par Sam Bowman.
- Le groupe de recherche de David Krueger au Laboratoire d’apprentissage computationnel et biologique de l’université de Cambridge.
- Le Laboratoire des fondements de l’IA coopérative de l’université Carnegie Mellon
- Le groupe de recherche Alignement des systèmes complexes à l’université Charles de Prague.
Pour en savoir plus sur la recherche technique sur la sûreté de l’IA
Voici quelques suggestions pour en savoir plus :
- Pour vous aider à vous orienter dans le domaine, nous vous recommandons le AI safety starter pack.
- Le Guide pas à pas de Charlie Rogers-Smith sur les carrières en sûreté de l’IA (dont cet article s’inspire en grande partie) fournit des conseils concrets et utiles, notamment sur les moyens d’obtenir un financement pour vous aider à vous orienter vers une carrière dans la recherche technique en sûreté de l’IA.
- Carrières dans la recherche sur l’IA bénéfique d’Adam Gleave, PDG de FAR AI.
- Notre profil de problème sur le risque de l’IA
- Ce programme d’études sur la sûreté de l’IA (ou, pour quelque chose de plus court, cette séquence de billets écrite par Richard Ngo).
- Notre revue de carrière des doctorats en apprentissage automatique
- Notre revue de carrière de l’ingéniérie logicielle
- Notre revue de carrière du travail dans un laboratoire d’IA de premier plan
Si vous préférez les podcasts, voici quelques épisodes pertinents du podcast de 80 000 Hours qui pourraient vous être utiles :
- Dr Paul Christiano on how OpenAI is developing real solutions to the “AI Alignment Problem”, and his vision of how humanity will progressively hand over decision-making to AI systems
- PhD or programming? Fast paths into aligning AI as a machine learning engineer, according to ML engineers catherine olsson & daniel ziegler
- Dario Amodei on OpenAI and how AI will change the world for good and ill
- Chris Olah on working at top AI labs without an undergrad degree
- Jan Leike on how to become a machine learning alignment researcher
- Richard Ngo on large language models, OpenAI, and striving to make the future go well