TwELL développé par Sakana AI et NVIDIA en open source, organise les données par petits blocs (tuiles), emballant directement les données utiles en mémoire locale, sautant les calculs inefficaces avec des activations proches de zéro dans le FFN, améliorant ainsi l'efficacité parallèle du GPU. Lors de l'entraînement d'un modèle de 1,5 milliard de paramètres, une régularisation légère réduit le nombre de neurones actifs à moins de 2 %, sans changer les sept tâches en aval ; la vitesse d'inférence sur H100 peut atteindre 30 % de plus, l'entraînement jusqu'à 24 %, avec une baisse de la mémoire vidéo maximale. Plus le modèle est grand, plus il y a de neurones en sommeil, le ratio de non-zéro d'un modèle de 2 milliards de paramètres est inférieur de 38 % à celui de 500 millions, et les futurs grands modèles bénéficieront encore davantage.

BlockBeatNews

2026-05-10 04:50:47

Création du résumé en cours

Selon la surveillance Beating, Sakana AI en collaboration avec Nvidia a open source un format de données clairsemées appelé TwELL et un noyau d’accélération associé, permettant avec succès au GPU de sauter les calculs inutiles dont le « résultat est proche de zéro » lors de l’exécution de grands modèles. Cette solution, sans perte de précision du modèle, permet d’augmenter la vitesse d’inférence du H100 jusqu’à 30 %, la vitesse d’entraînement jusqu’à 24 %, et de réduire considérablement la mémoire vidéo maximale.

Les couches feed-forward (FFN) des grands modèles consomment la majorité des paramètres et de la puissance de calcul. Mais en réalité, lors de chaque génération de texte, plus de 80 % des neurones sont en « état de repos » (valeurs d’activation proches de zéro), sans contribution à la résultat final. Si l’on peut sauter ces neurones, on économise énormément de puissance de calcul. Cependant, les GPU modernes sont naturellement spécialisés dans le calcul de matrices denses uniformes ; si l’on utilise des méthodes traditionnelles pour repérer et lire les données dispersées utiles, le coût de la recherche et de la lecture de ces données annule tous les gains de puissance économisés.

Le format TwELL a été conçu précisément pour briser cette malédiction matérielle. Il suit entièrement la logique parallèle du GPU : au lieu de rassembler des données non nulles à travers différentes régions comme dans les méthodes traditionnelles, il divise les données en petits blocs (tuiles) que le GPU traite le mieux. Ainsi, chaque cœur de calcul du GPU peut directement empaqueter localement les données utiles, éliminant complètement le coût de lecture/écriture globale en mémoire vidéo, et s’intégrant parfaitement dans la chaîne d’accélération des puces modernes.

Dans un modèle de 1,5 milliard de paramètres, une simple régularisation légère lors de l’entraînement suffit à réduire la proportion de neurones réellement nécessaires à moins de 2 %, sans dégradation des performances sur sept tâches en aval. Les données révèlent également une règle : plus le nombre de paramètres du modèle est grand, plus les neurones en état de repos sont nombreux (le pourcentage de non-zéro dans un modèle de 2 milliards de paramètres est inférieur de 38 % à celui d’un modèle de 500 millions). Cela signifie qu’à l’avenir, lorsque l’on poursuivra la création de modèles encore plus grands, cette optimisation spécifique au matériel sous-jacent libérera des gains de performance encore plus importants.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.09M Popularité
#
BTCBackAbove80K
59.46M Popularité
#
IsraelStrikesIranBTCPlunges
45.71K Popularité
#
JapanTokenizesGovernmentBonds
1.92M Popularité
#
#DailyPolymarketHotspot
872.83K Popularité

Épingler

Sakana AI s'associe à NVIDIA : faire en sorte que le GPU évite 80 % des calculs inutiles des grands modèles, accélérant l'inférence H100 de 30 %

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler