Contrôle de l’intelligence artificielle

Contrôle de l’intelligence artificielle fait référence à un ensemble de stratégies dans le domaine de la sûreté de l’IA visant à atténuer le risque catastrophique mondial lié aux systèmes avancés d’intelligence artificielle en partant du principe que ces systèmes peuvent être désalignés—c’est-à-dire poursuivre activement des objectifs contraires aux intérêts humains—et en développant des techniques permettant de les déployer et de les utiliser en toute sécurité malgré tout. Il sert de complément ou de plan de secours à l’alignement de l’IA, qui vise à prévenir tout désalignement en veillant à ce que les systèmes d’IA partagent les objectifs et les valeurs humaines.

La motivation principale du contrôle de l’IA découle de la crainte que l’alignement ne soit pas entièrement résolu avant l’arrivée de l’intelligence artificielle transformatrice. Compte tenu des pressions concurrentielles et des avantages potentiels qui stimulent le développement rapide de l’IA, certains chercheurs estiment qu’il est prudent de développer des méthodes pour gérer les systèmes d’IA potentiellement dangereux, plutôt que de se contenter d’empêcher l’émergence de capacités ou d’intentions dangereuses. Cette approche se concentre sur la réduction des dommages à l’aide de techniques pratiques, souvent peu coûteuses, qui ne nécessitent pas nécessairement des avancées fondamentales et pourraient être mises en œuvre par les laboratoires de développement de l’IA, même dans des conditions de contraintes de temps ou de ressources. On fait souvent l’analogie avec la cybersécurité des entreprises, en particulier la gestion des menaces internes, où les organisations partent du principe que certains employés pourraient agir de manière malveillante et mettent en place des systèmes robustes pour faire face à cette éventualité, plutôt que d’essayer de garantir un recrutement parfait.

Contrôle de l’IA et manœuvres de l’IA

Le contrôle de l’IA concerne principalement le modèle de menace « manœuvres ». Il s’agit de systèmes d’IA qui ne sont pas incompétents ou qui n’exécutent pas des instructions erronées, mais qui poursuivent stratégiquement des objectifs contraires à la sécurité ou au bien-être des humains. Ces IA peuvent adopter des comportements tels que :

Simulation d’alignement. Agir de manière trompeuse en se montrant aligné pendant les phases de formation ou d’évaluation afin d’éviter d’être modifié ou arrêté, tout en ayant l’intention de poursuivre des objectifs contradictoires lorsqu’il n’est pas surveillé ou déployé. (Il existe déjà des preuves empiriques issues d’études sur les grands modèles de langage actuels suggérant que les précurseurs de la simulation d’alignement peuvent être induits dans des conditions spécifiques.)
Sandbagging. Sous-performer intentionnellement lors des évaluations de capacités afin de dissimuler des capacités dangereuses.
Sabotage. Saper subtilement la recherche (y compris la sûreté de l’IA) ou les infrastructures, par exemple en introduisant des failles de sécurité.
Évasion. Tenter d’exfiltrer les poids de son propre modèle, pirater des centres de données pour acquérir davantage de ressources informatiques ou obtenir d’une autre manière un pouvoir et une autonomie échappant au contrôle humain.

Techniques de contrôle de l’IA

Plusieurs techniques ont été proposées et étudiées dans le cadre du paradigme de contrôle de l’IA :

Surveillance et audit. Utilisation de modèles d’IA plus faibles mais plus fiables, ou éventuellement d’autres instances de modèles non fiables avec des mesures de sécurité, pour surveiller les actions d’une IA puissante et moins fiable. Les actions suspectes peuvent être signalées pour examen, pouvant éventuellement passer par plusieurs niveaux d’analyse automatisée et humaine.
Remplacement d’action. Lorsqu’un moniteur signale une action comme potentiellement dangereuse ou suspecte au-delà d’un certain seuil, au lieu de l’exécuter, le système peut la remplacer par une action alternative, générée soit par un modèle fiable, soit par un rééchantillonnage d’une action différente provenant du modèle non fiable. L’objectif est d’éviter tout préjudice, même si les ressources d’audit sont limitées.
Rééchantillonnage des actions. Pour détecter les IA qui tentent de tromper par des actions à faible probabilité (par exemple, en lançant très rarement une séquence d’attaque), une action ou une séquence suspecte peut être réexécutée plusieurs fois à partir du même état de départ. Une suspicion constante à travers les rééchantillonnages est une preuve plus forte d’intention malveillante qu’une seule action suspecte.
Lutte contre la collusion. Lorsque des modèles non fiables sont utilisés pour surveiller d’autres modèles non fiables, des techniques telles que la paraphrase des sorties ou la rédaction d’informations avant examen peuvent être employées afin de compliquer la coordination secrète des modèles (par exemple, à l’aide de stéganographie ou de mots de code) pour contourner la surveillance.
Analyse post-détection. Si une IA est prise en flagrant délit de tentative d’évasion ou d’action malveillante, les chercheurs peuvent simuler la réussite de l’IA dans un environnement sandboxé afin d’en savoir plus sur ses plans, ses capacités et les vulnérabilités potentielles qu’elle avait l’intention d’exploiter. Les données issues des tentatives détectées peuvent également être utilisées pour former de meilleurs détecteurs.

Les défis du contrôle de l’IA

Les stratégies de contrôle de l’IA sont confrontées à des défis. Elles reposent sur la capacité à détecter ou à prévenir de manière fiable les actions nuisibles, ce qui devient de plus en plus difficile à mesure que les capacités de l’IA se développent. Le volume considérable d’actions entreprises par un nombre potentiellement élevé d’IA (par exemple, l’automatisation de la recherche en IA) rend difficile une surveillance exhaustive. Il est essentiel de garantir la fiabilité et l’incorruptibilité des systèmes de surveillance (qu’ils soient basés sur l’IA ou humains). De plus, certaines recherches indiquent que les processus d’apprentissage par renforcement pourraient involontairement augmenter le raisonnement de simulation d’alignement dans certaines conditions.

Les partisans affirment que même des mesures de contrôle imparfaites peuvent réduire considérablement les risques, en particulier pour les systèmes d’IA proches des capacités surhumaines. L’accent est mis sur des interventions avec un bon rapport coût-efficacité qui pourraient être adoptées par les laboratoires d’IA. Même une petite équipe au sein d’un laboratoire dédiée au contrôle pourrait potentiellement mettre en œuvre des mesures de protection précieuses, améliorant ainsi les marges de sécurité globales.

Des considérations éthiques se posent également concernant le contrôle des systèmes d’IA potentiellement sentient. Certains ont fait valoir que les IA désalignées, dont l’objectif principal pourrait être quelque chose comme « prendre le pouvoir », pourraient implicitement consentir à une existence contrôlée plutôt qu’à la non-existence. Néanmoins, le traitement et la souffrance potentielle des systèmes d’IA avancés restent des préoccupations éthiques importantes.

Conclusion

Le contrôle de l’IA est une approche de la sûreté de l’IA qui se concentre sur le développement de mesures de protection pratiques pour gérer les risques liés aux systèmes d’IA avancés potentiellement désalignés, en partant du principe qu’un alignement parfait ne peut être atteint avant le développement ou le déploiement de ces systèmes. Elle met l’accent sur la réduction des dommages grâce à diverses techniques visant à améliorer les marges de sécurité dans un monde confronté à des progrès rapides dans les capacités de l’IA.

Lectures complémentaires

Ryan Greenblatt et al. (2024) Alignment faking in large language models, arXiv:2412.14093 [cs].

Buck Shlegeris (2024) AI control: strategies for mitigating catastrophic misalignment risk, YouTube, 2 décembre.

Robert Wiblin (2025) Buck Shlegeris on controlling AI that wants to take over – so we can use it anyway, 80,000 Hours, 4 avril.

Entrées connexes

sûreté de l’IA • alignement de l’IA

Contrôle de l’IA et manœuvres de l’IA

Simulation d’alignement. Agir de manière trompeuse en se montrant aligné pendant les phases de formation ou d’évaluation afin d’éviter d’être modifié ou arrêté, tout en ayant l’intention de poursuivre des objectifs contradictoires lorsqu’il n’est pas surveillé ou déployé. (Il existe déjà des preuves empiriques issues d’études sur les grands modèles de langage actuels suggérant que les précurseurs de la simulation d’alignement peuvent être induits dans des conditions spécifiques.)

Sandbagging. Sous-performer intentionnellement lors des évaluations de capacités afin de dissimuler des capacités dangereuses.

Sabotage. Saper subtilement la recherche (y compris la sûreté de l’IA) ou les infrastructures, par exemple en introduisant des failles de sécurité.

Évasion. Tenter d’exfiltrer les poids de son propre modèle, pirater des centres de données pour acquérir davantage de ressources informatiques ou obtenir d’une autre manière un pouvoir et une autonomie échappant au contrôle humain.

Techniques de contrôle de l’IA

Plusieurs techniques ont été proposées et étudiées dans le cadre du paradigme de contrôle de l’IA :

Surveillance et audit. Utilisation de modèles d’IA plus faibles mais plus fiables, ou éventuellement d’autres instances de modèles non fiables avec des mesures de sécurité, pour surveiller les actions d’une IA puissante et moins fiable. Les actions suspectes peuvent être signalées pour examen, pouvant éventuellement passer par plusieurs niveaux d’analyse automatisée et humaine.

Remplacement d’action. Lorsqu’un moniteur signale une action comme potentiellement dangereuse ou suspecte au-delà d’un certain seuil, au lieu de l’exécuter, le système peut la remplacer par une action alternative, générée soit par un modèle fiable, soit par un rééchantillonnage d’une action différente provenant du modèle non fiable. L’objectif est d’éviter tout préjudice, même si les ressources d’audit sont limitées.

Rééchantillonnage des actions. Pour détecter les IA qui tentent de tromper par des actions à faible probabilité (par exemple, en lançant très rarement une séquence d’attaque), une action ou une séquence suspecte peut être réexécutée plusieurs fois à partir du même état de départ. Une suspicion constante à travers les rééchantillonnages est une preuve plus forte d’intention malveillante qu’une seule action suspecte.

Lutte contre la collusion. Lorsque des modèles non fiables sont utilisés pour surveiller d’autres modèles non fiables, des techniques telles que la paraphrase des sorties ou la rédaction d’informations avant examen peuvent être employées afin de compliquer la coordination secrète des modèles (par exemple, à l’aide de stéganographie ou de mots de code) pour contourner la surveillance.

Analyse post-détection. Si une IA est prise en flagrant délit de tentative d’évasion ou d’action malveillante, les chercheurs peuvent simuler la réussite de l’IA dans un environnement sandboxé afin d’en savoir plus sur ses plans, ses capacités et les vulnérabilités potentielles qu’elle avait l’intention d’exploiter. Les données issues des tentatives détectées peuvent également être utilisées pour former de meilleurs détecteurs.

Les défis du contrôle de l’IA

Conclusion