Coût d’alignement
Le coût d’alignement (parfois appelé coût de sûreté) est le coût supplémentaire d’aligner une IA, par rapport à une IA non alignée.
Paul Christiano distingue deux approches principales pour traiter le coût d’alignement1 : l’une consiste à trouver des moyens de payer le coût, par exemple en persuadant les acteurs individuels de payer ou en facilitant la de manière à permettre aux groupes de le payer. L’autre approche consiste à réduire la taxe en les algorithmes alignables existants ou en rendant les algorithmes existants plus alignables.
Amanda Askell et al. (2021) A general language assistant as a laboratory for alignment, arXiv:2112.00861 [cs].
Mark Xu & Carl Shulman (2021) Rogue AGI embodies valuable intellectual property, LessWrong, 3 juin.
Eliezer Yudkowsky (2017) Aligning an AGI adds significant development time, Arbital, 22 février.