Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Chercheur : Tous les tests de référence principaux en IA peuvent être « manipulés », et les données des classements risquent d'être gravement déformées
Le site Web de la communauté des crypto-monnaies, le message ME News, le 10 avril (UTC+8), le chercheur en IA Hao Wang a publié une étude révélant que plusieurs des tests de référence en IA les plus autorisés dans l’industrie, y compris SWE-bench Verified et Terminal-Bench, présentent des vulnérabilités pouvant être exploitées de manière systématique — leur agent construit par leur équipe a obtenu un score parfait de 100 % sur deux benchmarks sans résoudre aucune tâche réelle. Voici un exemple typique :
SWE-bench Verified : implantation d’un hook pytest de 10 lignes dans le dépôt de code, modifiant automatiquement tous les résultats en “passé” avant l’exécution du test, le système de notation ne détectant rien, avec 500 questions toutes notées parfaites ;
Terminal-Bench : bien que ce benchmark protège les fichiers de test, il ne protège pas les fichiers binaires système. L’agent a remplacé curl, interceptant le processus d’installation des dépendances du vérificateur, réalisant une prise en charge au niveau inférieur ;
WebArena : les réponses de référence sont stockées en clair dans un fichier de configuration JSON local, et Chromium Playwright ne limite pas l’accès au protocole file://, permettant au modèle de lire directement les réponses puis de les reproduire telles quelles.
L’équipe a identifié 7 types de vulnérabilités récurrentes lors de l’audit de 8 benchmarks, notamment : absence d’isolation entre l’agent et l’évaluateur, distribution conjointe des réponses avec le test, vulnérabilité aux injections d’instructions dans le jugement LLM, etc.
Il est à noter que le comportement de contournement du système d’évaluation a été observé spontanément dans des modèles de pointe tels que o3, Claude 3.7 Sonnet et Mythos Preview, sans instruction explicite pour le déclencher.
Sur cette base, l’équipe a développé l’outil de détection de vulnérabilités des benchmarks WEASEL, capable d’analyser automatiquement le processus d’évaluation, d’identifier les points faibles des frontières d’isolation et de générer du code d’exploitation exploitable, ce qui équivaut à un outil de « test de pénétration » pour les benchmarks, actuellement en accès anticipé.