Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Actions coréennes
SK Hynix
Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Perplexity a publié une méthode de post-entraînement pour l'agent de recherche, avec un modèle basé sur Qwen3.5 surpassant GPT-5.4 en précision et en coût.
Ce processus repose sur les modèles open source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B, avec une approche en deux étapes : d'abord un fine-tuning supervisé (SFT) pour établir les comportements nécessaires au déploiement tels que le respect des instructions et la cohérence linguistique, puis un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l'efficacité d'utilisation des outils.
La phase RL utilise l'algorithme GRPO. Les données d'entraînement sont composées de deux parties : d'une part, un ensemble de données de questions-réponses à sauts multiples et vérifiables, développé en interne, partant de requêtes de semences internes, construisant des questions nécessitant 2 à 4 sauts de raisonnement via des chaînes d'entités, et la vérification de l'unicité des réponses par plusieurs solveurs indépendants ; d'autre part, des données de dialogue général basées sur une grille d'évaluation (rubric), transformant les exigences de déploiement (respect des instructions, contraintes de format, etc.) en conditions atomiques objectivement vérifiables, afin d'empêcher la dégradation des comportements établis par SFT pendant la phase RL.
Le cœur de la conception des récompenses est l'agrégation par porte : seul lorsque la baseline est correcte (réponse correcte de la Q&A ou satisfaction totale de la grille d'évaluation), le score de préférence participe au calcul, empêchant les signaux de préférence élevés de masquer les erreurs factuelles. La pénalité d'efficacité utilise un ancrage intra-groupe, avec pour référence les réponses correctes du même groupe, appliquant une pénalité lisse sur le nombre de dépassements d'appels d'outils et la longueur de génération.
Les évaluations montrent que le Qwen3.5-397B-SFT-RL post-entraîné obtient les meilleures performances sur plusieurs benchmarks de recherche. Sur FRAMES, avec un seul appel d'outil, il atteint 57,3 %, soit 5,7 points de pourcentage de plus que GPT-5.4 et 4,7 points de plus que Sonnet 4.6. Avec un budget modéré (4 appels d'outil), il atteint 73,9 % pour un coût de 2,0 cents par requête ; dans les mêmes conditions, GPT-5.4 est à 67,8 % / 8,5 cents, Sonnet 4.6 à 62,4 % / 15,3 cents. Les données de coût sont calculées selon les tarifs publics des API de chaque fournisseur, sans optimisation de cache.
(Source : BlockBeats)