Arrêtez de simplement accumuler la puissance de calcul ! Des études montrent que plus les grands modèles sont entraînés, plus ils deviennent « rigides », et même augmenter les paramètres ne peut rien y faire.

robot
Création du résumé en cours
ME AI Message, d'après la surveillance de Beating, à mesure que le temps d'entraînement de l'IA augmente, elle perd progressivement sa capacité à assimiler de nouvelles connaissances (perte de plasticité), et finit par devenir plus rigide avec l'entraînement. Si la perte de plasticité ne peut être résolue, les grands modèles ne pourront jamais apprendre en continu à faible coût, et chaque mise à jour des connaissances nécessitera de réentraîner l'ensemble des données historiques avec les nouvelles données, consommant d'énormes ressources de calcul. La dernière étude de la startup AI Zyphra a montré pour la première fois que l'augmentation de la taille du modèle retarde certes la dégradation, mais le rendement marginal diminue, et l'empilement de paramètres ne peut à lui seul guérir la perte de plasticité. Les extrapolations montrent qu'un modèle de 1B paramètres devient stupide après un entraînement sur 1,8 billion de tokens, tandis qu'un modèle de 7B le devient après 9 billions. Plus révolutionnaire encore, même sans changement de tâche, en laissant le modèle s'entraîner uniquement sur un ensemble de données mixtes stables, la perte de plasticité se produit également. L'étude indique que la stupidification des grands modèles est due à trois causes directes : le volume des paramètres augmente avec l'entraînement, ce qui entrave la transmission des gradients sous le mécanisme de normalisation de couche (LayerNorm) ; les neurones de la couche MLP entrent en dormance et « font grève » à grande échelle (certains modèles ayant jusqu'à 95 % de leurs neurones en dormance) ; les têtes d'attention paralysent (ne fixant que des caractères individuels et s'effondrent) ou se relâchent (appliquant une couverture uniforme à tout le contexte). Pour ces caractéristiques pathologiques, les traitements potentiels incluent la limitation de l'expansion des paramètres, la réactivation forcée des neurones en grève via une « réinitialisation neuronale » périodique, et l'introduction de bruit aléatoire dans le mécanisme d'attention pour forcer la correction. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire