Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, le débit du modèle de 1T augmente de 54 %
L'inférence de grands modèles se divise en deux étapes : le prefill lit une fois toutes les entrées et génère un cache KV ; le décode utilise ensuite ce cache pour produire le résultat mot par mot.
Les caractéristiques matérielles nécessaires pour ces deux étapes sont totalement différentes : le prefill consomme beaucoup de puissance de calcul, le décode nécessite une grande mémoire vidéo et une large bande passante.
La pratique courante dans l'industrie consiste à séparer ces deux étapes sur des machines différentes (séparation PD), mais cela exige une interconnexion RDMA dans le même centre de données, car le cache KV des modèles d'attention intensive peut atteindre plusieurs dizaines de Gbps par seconde, et si la transmission est lente, le GPU reste inactif.
Le tournant vient des nouveaux modèles d'attention hybride.
Les travaux expérimentaux montrent que des modèles comme Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, en combinant quelques couches d'attention complètes avec de nombreuses couches linéaires, ont réduit le débit du cache KV d'environ un ordre de grandeur, avec un ratio de compression global de 36 fois pour Ring-2.5-1T.
À ce moment-là, le cache KV peut être transféré du réseau privé RDMA vers un réseau Ethernet standard pour le décode.
La méthode spécifique de PrfaaS consiste à constituer un « cluster de pré-remplissage » dédié, qui ne route que les requêtes avec de longs contextes ou des préfixes non trouvés, tandis que les requêtes courtes restent dans le cluster PD local ; après le pré-remplissage, le cache KV est renvoyé via Ethernet au cluster local pour le décode.
Elle introduit également un routage basé sur un seuil de longueur, un ordonnanceur sensible à la bande passante et un pool de cache de préfixes hybrides.
Les expérimentations ont été réalisées avec un modèle hybride interne de 1T paramètres (basé sur l'architecture Kimi Linear), montrant que la capacité de service globale dépasse de 54 % celle d'une déploiement PD homogène, et de 32 % par rapport à une solution hétérogène naïve, tout en utilisant une bande passante inter-centre modérée par machine.
(Source : BlockBeats)