Neel Nanda

Neel Nanda dirige l’équipe d’interprétabilité mécaniste de Google DeepMind, dont les travaux portent sur la rétro-ingénierie des algorithmes et des structures apprises par les réseaux neuronaux durant leur phase d’entraînement, avec pour objectif principal de réduire le risque existentiel associé à l’intelligence artificielle. Auparavant, il a mené des recherches sur la sûreté de l’IA au Future of Humanity Institute, chez DeepMind et au Centre for Human-Compatible AI. Il a ensuite travaillé comme chercheur en interprétabilité des modèles de langage chez Anthropic et comme chercheur indépendant. Nanda est titulaire d’une licence en mathématiques pures de l’université de Cambridge.

Liens externes

Neel Nanda. Site personnel.