Ce n'est pas un jugement rétrospectif. Celui qui dit cela est Diogo Almeida, un chercheur qui était chez OpenAI à l'époque où ils optimisaient les grands modèles.

Il vient de publier un blog au titre glacial : Scaling Laws, Honestly.

La première phrase met les choses au clair : la version originale de la scaling law était fausse à cause d'un bug.

Lien : https://www.completeskeptic.com/p/scaling-laws-honestly

Sander Dieleman, de DeepMind, célèbre pour ses travaux sur les modèles de diffusion, l'a immédiatement relayé sur Twitter, qualifiant cela d'anecdote intéressante dans l'histoire des LLM :

La scaling law originale était fausse à cause d'un bug, ce qui a probablement fait perdre à l'industrie une énorme quantité de puissance de calcul sur des modèles « trop grands et sous-entraînés ».

Un bug, deux ans de gâchis.

Quand le bug a été découvert, ce que nous avons vu n'était pas seulement un gouffre de puissance de calcul, mais aussi une frontière de l'intelligence bien plus profonde qu'imaginé, remodelée par le langage lui-même.

La Scaling Law, version LLM du « modèle géocentrique »

En 2020, OpenAI a conclu : pour un budget de calcul fixe, il faut d'abord agrandir le modèle, plutôt que de lui donner plus de données.

En formule, la taille optimale des paramètres est proportionnelle à la puissance 0,73 du budget de calcul — les paramètres sont la variable à pousser à fond.

Cette phrase a directement défini l'apparence de la génération GPT-3. Empiler les paramètres. Les empiler jusqu'à la mort. 175 milliards.

Elle a dit aux développeurs du monde entier : ne posez pas de questions, empilez les paramètres ; si vous rendez le modèle suffisamment grand, le miracle se produira.

Deux ans plus tard, DeepMind a lancé Chinchilla, renversant complètement cette conclusion : le modèle et les données doivent être agrandis ensemble, à peu près dans la même proportion, avec environ 20 tokens par paramètre pour être rentable.

Ils ont entraîné un Chinchilla de 70 milliards de paramètres avec 1,4 billion de tokens — moins de la moitié de la taille de GPT-3, mais plus de quatre fois plus de données.

Résultat, avec le même budget de calcul, il a complètement surpassé Gopher (280 milliards de paramètres, seulement 300 milliards de tokens).

En langage clair : avec la même somme d'argent, l'un a produit un « gros costaud gonflé », l'autre un « boxeur sec et nerveux ».

Trois ans plus tard, l'ancienne élève de l'Université de Pékin, Weng Li, a exploré en détail l'explication dominante dans les recherches ultérieures sur la différence entre les deux, à savoir qu'elle réside dans la manière dont ils calculent le nombre total de paramètres.

Et ce n'est pas fini. Même le « correct » Chinchilla n'est pas irréprochable.

En 2024, Besiroglu et al. ont extrait les points de données de l'article original de Chinchilla et les ont ré-analysés, découvrant que ses propres ajustements contenaient également un bug :

Le niveau de perte dans l'optimiseur était trop élevé, la perte de Huber étant moyennée sur les échantillons au lieu d'être sommée, ce qui a conduit à un arrêt prématuré de l'ajustement.

L'article qui corrigeait le bug portait lui-même un autre bug.

À ce stade, ce « principe premier » tant cité commence à vaciller.

La soi-disant Scaling Law n'a jamais été une loi physique aussi rigide que les trois lois de Newton ; ce n'est qu'une courbe ajustée empiriquement.

Quand Diogo Almeida pense que la vérité est autre chose, ce n'est pas une différence de méthode, « c'est que la version originale de la scaling law avait un bug en elle-même. »

OpenAI a-t-elle berné toute l'industrie mondiale de l'IA avec trois astuces ?

Pour créer un mensonge que toute l'IA mondiale croirait, il suffit de trois étapes.

Première étape : emprisonner les données.

L'article d'OpenAI a donné à tous les modèles — qu'ils soient des enfants apprenant à marcher (petits modèles) ou déjà des géants — exactement la même « ration ». Environ 130 milliards de tokens de données.

Les petits modèles étaient ainsi « nourris jusqu'à satiété » voire « gavés », tandis que les grands modèles, qui ont besoin de quantités massives de données pour remplir leur capacité, souffraient d'une grave malnutrition sous le même budget de tokens.

L'article de Chinchilla a ensuite souligné avec justesse : ils ont utilisé un « nombre fixe de tokens d'entraînement et un programme de taux d'apprentissage fixe pour tous les modèles ».

C'est comme faire passer le même examen, dans le même temps, à un élève de maternelle et à un doctorant, puis déclarer que « les résultats ne dépendent que du talent ».

Deuxième étape : la décroissance du taux d'apprentissage pour se cacher la vérité.

Ils ont utilisé une décroissance cosinusoïdale du taux d'apprentissage, faisant tendre le taux d'apprentissage vers zéro de manière lisse à la fin de l'entraînement.

Quand l'entraînement approchait de la fin prédéfinie, le taux d'apprentissage était artificiellement réduit à zéro, et les progrès du modèle se « stabilisaient » naturellement.

Une fois la courbe aplanie, on avait l'impression que le modèle avait appris tout ce qu'il pouvait et que lui donner plus de données ne servait à rien.

Les chercheurs ont donc conclu : « Ajouter des données ne sert à rien, le modèle est saturé. »

Ce n'était pas la limite du modèle, c'était le taux d'apprentissage qui coupait artificiellement le chemin de la croissance. Cela créait une illusion parfaite : les performances avaient atteint un plafond, et ajouter des données était inutile.

Mais nous savons maintenant que ces grands modèles n'étaient pas du tout arrivés à leur terme.

Troisième étape : l'arrogance de l'autorité.

La troisième étape, la plus perfide : l'article disait que les résultats étaient « largement indépendants du programme de taux d'apprentissage ».

Bien que plusieurs personnes, dont Diogo Almeida qui était alors chez OpenAI, aient eu un vague sentiment que quelque chose clochait, techniquement, dans le cadre d'un plafond fixe de tokens, cette conclusion était correcte.

Mais elle ne s'appliquait précisément pas au monde idéal « à données infinies » que la scaling law prétendait décrire.

Ils ont pris une vérité locale dans des conditions limitées pour une loi universelle.

Trois étapes combinées, et vous obtenez une loi à la fois erronée et extrêmement difficile à déboguer.

Même Diogo admet : à l'époque, il travaillait aussi à l'optimisation chez OpenAI et n'avait pas vu ce bug — cette courbe de taux d'apprentissage semblait tellement « soigneusement réglée » que personne n'irait la remettre en question.

Des GPU gaspillés, une répartition erronée de la puissance de calcul

Guidée par la formule erronée d'OpenAI, l'industrie de l'IA est entrée dans l'ère de « la force brute fait des miracles ».

Cela signifie que, ces dernières années, les esprits les plus brillants du monde et la puissance de calcul la plus rare ont été gaspillés dans une expansion inefficace de la taille.

Ce n'est pas seulement une question d'argent : dans la course contre la montre vers l'AGI (intelligence générale artificielle), l'humanité a collectivement couru des milliers de kilomètres sur la mauvaise piste à cause d'un réglage de taux d'apprentissage.

Si la découverte du bug était douloureuse, la réflexion profonde qui a suivi est glaçante.

Le chercheur Adam Zachary Wasserman a souligné un angle mort que tout le monde avait ignoré : même après la correction de la formule, la Scaling Law actuelle n'est qu'une « Scaling Law anglaise ».

Il a fait une expérience contre-intuitive : entraîner des modèles avec la même architecture et la même puissance de calcul.

Résultat : le modèle français atteignait une certaine capacité grammaticale avec une efficacité 50 à 100 fois supérieure à celle du modèle anglais.

Pourquoi ? Parce que l'anglais est une langue « morphologiquement pauvre ».

Elle dépend trop de la distribution statistique, obligeant le modèle à deviner le sens des mots dans d'énormes quantités de données ; tandis que des langues comme le français ou le chinois, riches en morphologie ou à la structure stricte, portent déjà beaucoup d'informations explicites dans les mots eux-mêmes.

Cela signifie que tous nos schémas actuels de répartition de la puissance de calcul sont basés sur la langue la plus « gourmande en données » et la moins efficace.

Quand vous pensez explorer les lois physiques de « l'intelligence générale », vous ne faites en réalité que mesurer « à quel point la langue anglaise gaspille de la puissance de calcul ».

C'est comme essayer de définir les normes nutritionnelles de tous les êtres de l'univers en étudiant l'appétit d'un cochon — ce n'est pas seulement un biais, c'est une limitation cognitive.

Nous aurions pu obtenir de meilleures performances avec des modèles plus petits et des données de meilleure qualité.

Nous aurions pu économiser des dizaines de milliers d'heures de fonctionnement des H100, avec leur électricité et leur chaleur.

Nous aurions pu entrer dans l'ère de « l'IA efficace » deux ans plus tôt.

Source : Xin Zhi Yuan

Avertissement sur les risques et clause de non-responsabilité

        Le marché présente des risques, les investissements doivent être prudents. Cet article ne constitue pas un conseil d'investissement personnel et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins spécifiques de chaque utilisateur. Les utilisateurs doivent déterminer si les opinions, points de vue ou conclusions de cet article correspondent à leur situation particulière. Investir en conséquence implique une responsabilité personnelle.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
gStocksTokenizedStocksLive
4,82M Popularité
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Popularité
#
IsraelStrikesIranBTCPlunges
68,82K Popularité
#
PredictWorldCupShare20000U
235,08K Popularité
#
ETHBreaks1700
152,64M Popularité

Épinglé

OpenAI s'effondre ! Bug dans l'article original sur la loi d'échelle, des billions de calculs gaspillés.

La Scaling Law, version LLM du « modèle géocentrique »

OpenAI a-t-elle berné toute l'industrie mondiale de l'IA avec trois astuces ?

Des GPU gaspillés, une répartition erronée de la puissance de calcul

Sujets populaires

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Épinglé