Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Google publie le guide de formation pour les développeurs de la septième génération d'Ironwood TPU, détaillant l'optimisation des performances au niveau du système
Actualités ME, le 2 avril (UTC+8), Google a récemment publié un guide de formation pour les développeurs concernant le TPU Ironwood de septième génération.
Ce guide vise à aider les développeurs à exploiter pleinement les performances système du TPU Ironwood pour entraîner et déployer efficacement des modèles d’IA de pointe.
Le TPU Ironwood est une infrastructure d’IA personnalisée conçue pour répondre aux besoins en puissance de calcul de modèles de milliards de paramètres, construite à l’aide de technologies telles que l’interconnexion entre puces (ICI), le commutateur optique (OCS), le réseau de centres de données (DCN) et la mémoire haute bande passante agrégée (HBM), supportant un système complet pouvant inclure jusqu’à 9 216 puces.
L’article décrit en détail plusieurs stratégies d’optimisation clés pour ce matériel, notamment : l’utilisation de l’unité de multiplication matricielle (MXU) native pour supporter la formation FP8 afin d’augmenter le débit ; l’adoption de la bibliothèque de noyaux JAX optimisée pour TPU, Tokamax, qui traite les tenseurs irréguliers dans les modèles à contexte long et aux experts hybrides via “attention éclaboussante” et “Megablox multiplication matricielle groupée” ; l’utilisation du quatrième génération de cœurs clairsemés (SparseCore) pour décharger les opérations de communication collective afin de masquer la latence ; l’optimisation fine de l’allocation de la SRAM rapide (VMEM) sur le TPU pour réduire les blocages mémoire ; ainsi que le choix de la meilleure stratégie de partitionnement (comme FSDP, TP, EP) en fonction de la taille du modèle, de l’architecture et de la longueur de la séquence.
(Source : InFoQ)