OpenClaw a permis à la société de modèles de goûter pour la première fois aux avantages de l'économie Token.


Le 17 juin, GLM-5.2 a été open source. Cette fois, c'est différent.
Licence MIT : modification libre, vente libre, seule obligation de conserver la déclaration de droits d'auteur.
Risque de propriété intellectuelle zéro, les entreprises peuvent intégrer en toute confiance le modèle dans leurs produits commerciaux, même après modification, sans devoir rendre le code.
Comparé aux licences infectieuses comme la GPL qui obligent à open source si vous utilisez leur code, MIT abaisse le seuil d'entrée.
Plus important encore — tous les modèles entrent désormais dans l'ère de la longue inférence.
Qu'est-ce que GLM-5.2 a réellement changé ?
À l'époque d'OpenClaw, l'Agent travaillait en "sprint" — chaque tâche avait une fenêtre limitée, planification-exécution-finition, la taille du cache KV était contrôlable, la pression matérielle principalement sur la puissance de calcul.
La longue inférence de GLM-5.2 est un "marathon" — contexte sans perte de 1 million, le modèle peut contenir dans une seule tâche tout le code, tout l'historique de décision, toutes les contraintes.
Dans des tests réels, une seule opération traitait 880 000 tokens, utilisant presque toute la fenêtre.
Que signifie ce changement ?
Autrefois, l'IA était "question-réponse", la consommation de tokens se terminait après une fois.
Après GLM-5.2, l'Agent commence à exécuter de véritables longues tâches : décomposer l'objectif → planification multi-tours → validation répétée → ajustement des outils → écrire du code puis exécuter le code → replanifier selon les retours.
Une tâche déclenche des centaines de cycles d'inférence.
À chaque cycle, il faut charger le contexte complet en mémoire pour recalculer.
Calcul continu, communication continue, lecture-écriture continue.
Ces trois "continus" changent complètement la logique de tarification du matériel.
L'inférence longue de l'Agent, quels en sont les avantages ?
🥇 HBM
Le cache KV croît linéairement avec le nombre de tours de dialogue et la longueur du contexte, épuisant rapidement la capacité HBM du GPU.
Une fois que le cache KV quitte le GPU, la bande passante passe de TB/s à quelques centaines de GB/s — le problème passe de "puissance de calcul" à "bande passante mémoire".
Les trois grands fabricants voient leur capacité épuisée, avec un déficit de 50%-60%, le marché atteindra 54,6 milliards de dollars en 2026.
🥈 Chips optiques/InP
L'inférence longue tourne en cluster, chaque boucle nécessitant une synchronisation entre cartes. Plus la tâche est longue, plus il y a de cycles, plus la communication est effrayante.
Le marché des modules optiques en 2026 est de 26 milliards de dollars, avec une croissance annuelle de 60%.
Le déficit de substrats InP dépasse 70%, le prix de l'indium a augmenté de 90% en un an.
🥉 CPU
Les longues tâches nécessitent une décomposition continue, l'appel d'outils, la gestion de flux, la planification du cache KV.
Ces tâches que le GPU ne peut pas bien gérer, doivent être confiées au CPU.
Le ratio CPU/GPU passe de 1:8 à presque 1:1, le PDG d'Intel a publiquement dit "Plusieurs PDG appellent pour accélérer la livraison des CPU".
❄️ Refroidissement liquide
La inférence courte est une charge pulsée, la longue inférence est une charge continue.
Pour une même carte, la consommation réelle en longue tâche est 3-5 fois celle de l'inférence courte.
La consommation du rack passe de 36 kW à 200 kW, le refroidissement à air ne suffit plus, le refroidissement liquide devient "obligatoire".
🔌 Commutateur
Les besoins en bande passante pour les clusters d'inférence passent de 100G à 400G, des dizaines de milliers de cartes nécessitent une gestion.
IB et Ethernet haute vitesse en bénéficient pleinement.
📦 Carte d'extension ABF
Les clusters passent de milliers à dizaines de milliers de cartes, chaque puce doit être encapsulée.
Mitsubishi monopolise plus de 90% des membranes ABF, le déficit en 2028 sera de 42%.
Le prix de la farine augmente, le pain sera encore plus cher.
🧪 CCL M9
Les cartes mères et backplanes pour clusters d'inférence doivent tous utiliser des substrats haute vitesse.
Le prix du M9 est 10 fois celui du FR4 ordinaire, le marché de l'AI CCL atteindra 18,7 milliards de dollars en 2027, avec une croissance surpassant celle des modules optiques.
OpenClaw a allumé le feu, GLM-5.2 a fourni le bois.
Le premier a permis aux sociétés de modèles de gagner leur premier Token, le second a fait passer ce marché du laboratoire à l'industrie.
Une opération simple reste dans le stockage, dans la lumière, profitant de la bulle AI.
$MU $SKHYNIX $LITE
TOKEN3,03%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé