Niveaux de sûreté de l’IA
Niveaux de sûreté de l’IA (souvent désignés par l’acronyme ASL) est le nom donné au système de classification de sûreté mis en place par Anthropic pour évaluer et atténuer les risques potentiellement catastrophiques dans ses modèles d’IA. Ce système, inspiré des normes de biosécurité du gouvernement américain, établit des protocoles de plus en plus stricts à mesure que les capacités des modèles augmentent.
Niveaux de classification
-
ASL-1 : Systèmes qui ne présentent aucun risque catastrophique significatif, tels que les grands modèles de langage de 2018 ou les systèmes d’IA spécifiques à un domaine (comme ceux qui ne jouent qu’aux échecs).
-
ASL-2 : Systèmes qui montrent les premiers signes de capacités potentiellement dangereuses, comme la capacité de fournir des instructions sur les armes biologiques, mais avec des informations peu fiables ou guère plus utiles que celles disponibles sur les moteurs de recherche. Les modèles de langage actuels, y compris Claude, se situent à ce niveau.
-
ASL-3 : Systèmes qui augmentent considérablement le risque d’une utilisation malveillante catastrophique par rapport aux outils existants non basés sur l’IA, ou qui présentent des capacités autonomes de faible niveau.
-
ASL-4/5+ : niveaux non encore entièrement définis, réservés aux futurs systèmes dont le potentiel d’utilisation malveillante et l’autonomie seraient considérablement accrus.
Chaque niveau nécessite des mesures de sécurité de plus en plus strictes, allant des normes actuelles de l’ASL-2 à des exigences qui pourraient, pour les niveaux supérieurs, inclure la résolution de problèmes scientifiques encore ouverts. Ce système vise à trouver un équilibre entre l’atténuation des risques catastrophiques et le développement d’applications bénéfiques, en permettant l’utilisation de modèles du niveau précédent pour développer les mesures de sécurité du niveau suivant.
En savoir plus
Anthropic (2023) Anthropic’s responsible scaling policy, Anthropic, 19 septembre.