Coût d’alignement

Le coût d’alignement (parfois appelé coût de sûreté) est le coût supplémentaire d’aligner une IA, par rapport à une IA non alignée.

Approches du coût d’alignement

Paul Christiano distingue deux approches principales pour traiter le coût d’alignement⁠a : l’une consiste à trouver des moyens de payer le coût, par exemple en persuadant les acteurs individuels de payer ou en facilitant la coordination de manière à permettre aux groupes de le payer. L’autre approche consiste à réduire la taxe en faisant progresser différentiellement les algorithmes alignables existants ou en rendant les algorithmes existants plus alignables.

Pour en savoir plus

Amanda Askell et al. (2021) A general language assistant as a laboratory for alignment, arXiv:2112.00861 [cs].

Mark Xu & Carl Shulman (2021) Rogue AGI embodies valuable intellectual property, LessWrong, 3 juin.

Eliezer Yudkowsky (2017) Aligning an AGI adds significant development time, Arbital, 22 février.

Entrées associées

alignement de l’IA • gouvernance de l’IA • prévision de l’IA • progrès différentiel

Paul Christiano (2020) Current work in AI alignment, Effective Altruism Global, 3 avril. Pour un résumé, voir Rohin Shah (2020) A framework for thinking about how to make AI go well, LessWrong, 15 avril.