Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Actions coréennes
SK Hynix
Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
OpenAI s'effondre ! Bug dans l'article original sur la loi d'échelle, des billions de calculs gaspillés.
OpenAI a induit tout le monde dans l'IA en erreur pendant des années !
Ces cinq dernières années, l'ensemble de l'industrie de l'IA a été poussé en avant par la Scaling Law.
Altman est convaincu que la confiance dans l'AGI vient de cette courbe.
Maintenant, quelqu'un s'avance et dit : cette courbe était erronée dès le départ.
Ce n'est pas un jugement rétrospectif. Celui qui dit cela est Diogo Almeida, un chercheur qui était chez OpenAI à l'époque où ils optimisaient les grands modèles.
Il vient de publier un blog au titre glacial : Scaling Laws, Honestly.
La première phrase met les choses au clair : la version originale de la scaling law était fausse à cause d'un bug.
Sander Dieleman, de DeepMind, célèbre pour ses travaux sur les modèles de diffusion, l'a immédiatement relayé sur Twitter, qualifiant cela d'anecdote intéressante dans l'histoire des LLM :
Un bug, deux ans de gâchis.
Quand le bug a été découvert, ce que nous avons vu n'était pas seulement un gouffre de puissance de calcul, mais aussi une frontière de l'intelligence bien plus profonde qu'imaginé, remodelée par le langage lui-même.
La Scaling Law, version LLM du « modèle géocentrique »
En 2020, OpenAI a conclu : pour un budget de calcul fixe, il faut d'abord agrandir le modèle, plutôt que de lui donner plus de données.
En formule, la taille optimale des paramètres est proportionnelle à la puissance 0,73 du budget de calcul — les paramètres sont la variable à pousser à fond.
Cette phrase a directement défini l'apparence de la génération GPT-3. Empiler les paramètres. Les empiler jusqu'à la mort. 175 milliards.
Elle a dit aux développeurs du monde entier : ne posez pas de questions, empilez les paramètres ; si vous rendez le modèle suffisamment grand, le miracle se produira.
Deux ans plus tard, DeepMind a lancé Chinchilla, renversant complètement cette conclusion : le modèle et les données doivent être agrandis ensemble, à peu près dans la même proportion, avec environ 20 tokens par paramètre pour être rentable.
Ils ont entraîné un Chinchilla de 70 milliards de paramètres avec 1,4 billion de tokens — moins de la moitié de la taille de GPT-3, mais plus de quatre fois plus de données.
Résultat, avec le même budget de calcul, il a complètement surpassé Gopher (280 milliards de paramètres, seulement 300 milliards de tokens).
En langage clair : avec la même somme d'argent, l'un a produit un « gros costaud gonflé », l'autre un « boxeur sec et nerveux ».
Trois ans plus tard, l'ancienne élève de l'Université de Pékin, Weng Li, a exploré en détail l'explication dominante dans les recherches ultérieures sur la différence entre les deux, à savoir qu'elle réside dans la manière dont ils calculent le nombre total de paramètres.
Et ce n'est pas fini. Même le « correct » Chinchilla n'est pas irréprochable.
En 2024, Besiroglu et al. ont extrait les points de données de l'article original de Chinchilla et les ont ré-analysés, découvrant que ses propres ajustements contenaient également un bug :
À ce stade, ce « principe premier » tant cité commence à vaciller.
La soi-disant Scaling Law n'a jamais été une loi physique aussi rigide que les trois lois de Newton ; ce n'est qu'une courbe ajustée empiriquement.
Quand Diogo Almeida pense que la vérité est autre chose, ce n'est pas une différence de méthode, « c'est que la version originale de la scaling law avait un bug en elle-même. »
OpenAI a-t-elle berné toute l'industrie mondiale de l'IA avec trois astuces ?
Pour créer un mensonge que toute l'IA mondiale croirait, il suffit de trois étapes.
Première étape : emprisonner les données.
L'article d'OpenAI a donné à tous les modèles — qu'ils soient des enfants apprenant à marcher (petits modèles) ou déjà des géants — exactement la même « ration ». Environ 130 milliards de tokens de données.
Les petits modèles étaient ainsi « nourris jusqu'à satiété » voire « gavés », tandis que les grands modèles, qui ont besoin de quantités massives de données pour remplir leur capacité, souffraient d'une grave malnutrition sous le même budget de tokens.
L'article de Chinchilla a ensuite souligné avec justesse : ils ont utilisé un « nombre fixe de tokens d'entraînement et un programme de taux d'apprentissage fixe pour tous les modèles ».
C'est comme faire passer le même examen, dans le même temps, à un élève de maternelle et à un doctorant, puis déclarer que « les résultats ne dépendent que du talent ».
Deuxième étape : la décroissance du taux d'apprentissage pour se cacher la vérité.
Ils ont utilisé une décroissance cosinusoïdale du taux d'apprentissage, faisant tendre le taux d'apprentissage vers zéro de manière lisse à la fin de l'entraînement.
Quand l'entraînement approchait de la fin prédéfinie, le taux d'apprentissage était artificiellement réduit à zéro, et les progrès du modèle se « stabilisaient » naturellement.
Une fois la courbe aplanie, on avait l'impression que le modèle avait appris tout ce qu'il pouvait et que lui donner plus de données ne servait à rien.
Les chercheurs ont donc conclu : « Ajouter des données ne sert à rien, le modèle est saturé. »
Ce n'était pas la limite du modèle, c'était le taux d'apprentissage qui coupait artificiellement le chemin de la croissance. Cela créait une illusion parfaite : les performances avaient atteint un plafond, et ajouter des données était inutile.
Mais nous savons maintenant que ces grands modèles n'étaient pas du tout arrivés à leur terme.
Troisième étape : l'arrogance de l'autorité.
La troisième étape, la plus perfide : l'article disait que les résultats étaient « largement indépendants du programme de taux d'apprentissage ».
Bien que plusieurs personnes, dont Diogo Almeida qui était alors chez OpenAI, aient eu un vague sentiment que quelque chose clochait, techniquement, dans le cadre d'un plafond fixe de tokens, cette conclusion était correcte.
Mais elle ne s'appliquait précisément pas au monde idéal « à données infinies » que la scaling law prétendait décrire.
Ils ont pris une vérité locale dans des conditions limitées pour une loi universelle.
Trois étapes combinées, et vous obtenez une loi à la fois erronée et extrêmement difficile à déboguer.
Même Diogo admet : à l'époque, il travaillait aussi à l'optimisation chez OpenAI et n'avait pas vu ce bug — cette courbe de taux d'apprentissage semblait tellement « soigneusement réglée » que personne n'irait la remettre en question.
Des GPU gaspillés, une répartition erronée de la puissance de calcul
Guidée par la formule erronée d'OpenAI, l'industrie de l'IA est entrée dans l'ère de « la force brute fait des miracles ».
Cela signifie que, ces dernières années, les esprits les plus brillants du monde et la puissance de calcul la plus rare ont été gaspillés dans une expansion inefficace de la taille.
Ce n'est pas seulement une question d'argent : dans la course contre la montre vers l'AGI (intelligence générale artificielle), l'humanité a collectivement couru des milliers de kilomètres sur la mauvaise piste à cause d'un réglage de taux d'apprentissage.
Si la découverte du bug était douloureuse, la réflexion profonde qui a suivi est glaçante.
Le chercheur Adam Zachary Wasserman a souligné un angle mort que tout le monde avait ignoré : même après la correction de la formule, la Scaling Law actuelle n'est qu'une « Scaling Law anglaise ».
Il a fait une expérience contre-intuitive : entraîner des modèles avec la même architecture et la même puissance de calcul.
Résultat : le modèle français atteignait une certaine capacité grammaticale avec une efficacité 50 à 100 fois supérieure à celle du modèle anglais.
Pourquoi ? Parce que l'anglais est une langue « morphologiquement pauvre ».
Elle dépend trop de la distribution statistique, obligeant le modèle à deviner le sens des mots dans d'énormes quantités de données ; tandis que des langues comme le français ou le chinois, riches en morphologie ou à la structure stricte, portent déjà beaucoup d'informations explicites dans les mots eux-mêmes.
Cela signifie que tous nos schémas actuels de répartition de la puissance de calcul sont basés sur la langue la plus « gourmande en données » et la moins efficace.
Quand vous pensez explorer les lois physiques de « l'intelligence générale », vous ne faites en réalité que mesurer « à quel point la langue anglaise gaspille de la puissance de calcul ».
C'est comme essayer de définir les normes nutritionnelles de tous les êtres de l'univers en étudiant l'appétit d'un cochon — ce n'est pas seulement un biais, c'est une limitation cognitive.
Nous aurions pu obtenir de meilleures performances avec des modèles plus petits et des données de meilleure qualité.
Nous aurions pu économiser des dizaines de milliers d'heures de fonctionnement des H100, avec leur électricité et leur chaleur.
Nous aurions pu entrer dans l'ère de « l'IA efficace » deux ans plus tôt.
Source : Xin Zhi Yuan
Avertissement sur les risques et clause de non-responsabilité