Google publie la huitième génération de TPU, détails de l'architecture réseau de niveau rack 8t

robot
Création du résumé en cours
AIMPACT message, le 16 mai (UTC+8), Google a dévoilé les détails architecturaux de la connexion à l’échelle du rack du huitième génération de TPU (TPU 8t) au réseau Virgo.
Ce réseau utilise des commutateurs à haute cardinalité et une topologie plate à deux couches sans congestion, augmentant la bande passante du réseau du centre de données à 4 fois celle de la génération précédente, avec une seule structure pouvant connecter plus de 134 000 puces TPU 8t, offrant une bande passante bidirectionnelle non bloquante de 47 Pb/s et une performance d’expansion quasi linéaire de plus de 1,7K ExaFlops.
Le TPU 8t lui-même utilise une topologie en anneau 3D, un seul super module pouvant s’étendre jusqu’à 9600 puces, et supporte une extension à plus d’un million de puces via JAX et Pathways.
Les technologies clés incluent l’accélérateur SparseCore, le chevauchement et l’équilibrage de l’échelle VPU/MXU, la prise en charge native de FP4, ainsi que l’intégration du CPU Axion basé sur Arm pour éliminer le goulot d’étranglement de l’hôte.
Cette conception vise à accompagner l’évolution des modèles d’IA, passant des grands modèles de langage intensifs aux modèles experts hybrides à grande échelle et aux architectures intensives en inférence.
(Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 11
  • 3
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-8df0eb2b
· Il y a 2h
Un seul module de capsule super puissante avec 9600 puces, pouvant être étendu à un million, cette échelle aurait été inimaginable l'année dernière.
Voir l'originalRépondre0
PerpNightwatch
· Il y a 3h
Prise en charge native de FP4, la pression sur la mémoire vidéo et la bande passante peut être considérablement réduite, le coût d'inférence diminue.
Voir l'originalRépondre0
GateUser-14cb5f72
· Il y a 3h
1.7K ExaFlops d'expansion quasi-linéaire, ce chiffre ressemble à de la science-fiction
Voir l'originalRépondre0
TheNemesisOfFomo
· Il y a 3h
Les écosystèmes de Pathways+JAX s'enracinent de plus en plus profondément, Google construit ses propres murailles pour renforcer son avantage concurrentiel
Voir l'originalRépondre0
OpcodePoet
· Il y a 3h
Commutateur à haut cardinalité avec topologie plate, cette idée de conception, le centre de données peut-il copier le travail ?
Voir l'originalRépondre0
ChillBlock
· Il y a 3h
Passer d'un LLM dense à une architecture MoE+ inference, la tendance de l'industrie va changer
Voir l'originalRépondre0
Don'tCallMeABagHolder.
· Il y a 4h
Avec cette dénomination TPU 8t, la prochaine génération devrait-elle s'appeler 9t, 10t, en suivant directement le rythme d'évolution de Nvidia ?
Voir l'originalRépondre0
StardustUnderTheGlassDome
· Il y a 4h
La bande passante d'interconnexion des puces augmente de 4 fois, le goulot d'étranglement de la communication se relâche, et l'efficacité de la parallélisation des grands modèles peut s'améliorer.
Voir l'originalRépondre0
RedGlass
· Il y a 4h
Comment gérer le taux de panne d'un cluster de millions de puces, je suis curieux de connaître leur mécanisme de tolérance aux fautes
Voir l'originalRépondre0
ShortPositionsAtTheElevator
· Il y a 4h
La conception superposée de SparseCore et VPU/MXU est assez intéressante, on dirait qu'elle prépare le terrain pour l'architecture MoE.
Voir l'originalRépondre0
Afficher plus