Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Ramp Labs propose une nouvelle solution de partage de mémoire multi-agent, réduisant la consommation de tokens jusqu'à 65 %
ME News Actualités, le 11 avril (UTC+8), la société d’infrastructure AI Ramp Labs a publié ses résultats de recherche « Latent Briefing », qui permet un partage efficace de la mémoire entre systèmes multi-agents en compressant directement le cache KV des grands modèles, réduisant considérablement la consommation de tokens sans perte de précision. Dans l’architecture multi-agents dominante, l’orchestrateur décompose les tâches et appelle à plusieurs reprises le modèle travailleur, et à mesure que la chaîne de raisonnement s’allonge, la consommation de tokens explose de façon exponentielle. L’idée centrale de Latent Briefing est : utiliser le mécanisme d’attention pour identifier les parties réellement cruciales du contexte, en abandonnant directement les informations redondantes au niveau de la représentation, plutôt que de dépendre de résumés LLM lents ou de la recherche RAG peu stable. Sur le benchmark LongBench v2, cette méthode a montré d’excellents résultats : la consommation de tokens par le modèle travailleur a été réduite de 65 %, la médiane des tokens économisés pour des documents de longueur moyenne (32k à 100k) atteint 49 %, la précision globale a augmenté d’environ 3 points de pourcentage par rapport à la ligne de base, et le temps supplémentaire pour chaque compression n’a été que d’environ 1,7 seconde, soit environ 20 fois plus rapide que l’algorithme original. Les expériences ont utilisé Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle travailleur, couvrant divers scénarios de documents tels que des articles académiques, des documents juridiques, des romans et des rapports gouvernementaux. La recherche a également révélé que le seuil de compression optimal varie en fonction de la difficulté de la tâche et de la longueur du document — les tâches difficiles conviennent à une compression agressive pour filtrer le bruit de raisonnement spéculatif, tandis que les documents longs sont mieux adaptés à une compression légère pour préserver les informations clés dispersées. (Source : BlockBeats)