Hypothèse de mise à l’échelle
L’hypothèse de la mise à l’échelle (scaling hypothesis) soutient qu’avec le paradigme actuel de l’apprentissage profond, il est possible d’obtenir des modèles toujours plus performants simplement en entraînant des réseaux neuronaux toujours plus grands. Pour reprendre les termes de Gwern Branwen, qui a popularisé l’hypothèse, « les réseaux de neurones les plus puissants ne sont “que” des réseaux neuronaux faibles amplifiés, de la même manière que les cerveaux humains ressemblent beaucoup à des cerveaux de primates amplifiés »1.
Rohin Shah, chercheur dans le domaine de la sûreté de l’IA, considère l’hypothèse de la mise à l’échelle comme l’hypothèse la plus importante en matière de prévision de l’IA2.
Gwern Branwen (2020) The scaling hypothesis, Gwern.Net, 28 mai (dernière mise à jour : 2 janvier 2022).
Jared Kaplan et al. (2020) Scaling Laws for Neural Language Models, arXiv:2001.08361 [cs, stat].