Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Actions coréennes
SK Hynix
Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Perplexity publie la méthode d'entraînement post-agent de recherche, le modèle basé sur Qwen3.5 dépasse GPT-5.4 en termes de précision et de coût.
Ce processus repose sur les modèles open source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B, et adopte un plan en deux étapes : d'abord un apprentissage supervisé par fine-tuning (SFT) pour établir des comportements nécessaires au déploiement tels que le respect des instructions et la cohérence linguistique, puis un apprentissage par renforcement en ligne (RL) pour optimiser la précision de la recherche et l'efficacité de l'utilisation des outils.
La phase RL utilise l'algorithme GRPO. Les données d'entraînement se composent de deux parties : d'une part, un ensemble de données de questions-réponses synthétiques vérifiables à sauts multiples, partant de requêtes germes internes, construisant via des chaînes d'entités des problèmes nécessitant 2 à 4 sauts de raisonnement, et vérifiés par plusieurs solveurs indépendants pour garantir l'unicité des réponses ; d'autre part, des données de dialogue général basées sur une grille d'évaluation (rubric), transformant les exigences de déploiement telles que le respect des instructions et les contraintes de format en conditions atomiques objectivement vérifiables, utilisées dans la phase RL pour empêcher la dégradation des comportements établis par SFT.
Le cœur de la conception des récompenses est l'agrégation par porte : le score de préférence n'est pris en compte que lorsque la baseline est correcte (réponse correcte aux questions ou respect total de la grille d'évaluation), empêchant ainsi les signaux de préférence élevée de masquer les erreurs factuelles. La pénalité d'efficacité adopte une méthode d'ancrage intra-groupe, utilisant comme référence les réponses correctes du même groupe, et applique une pénalité lisse pour les appels d'outils et la longueur de génération excessifs.
Les évaluations montrent que le Qwen3.5-397B-SFT-RL après post-entraînement obtient les meilleures performances sur plusieurs benchmarks de recherche. Sur FRAMES, un seul appel d'outil atteint 57,3 %, soit 5,7 points de pourcentage de plus que GPT-5.4 et 4,7 points de pourcentage de plus que Sonnet 4.6.
Avec un budget modéré (4 appels d'outils), il atteint 73,9 %, coûtant 2,0 cents par requête ; dans les mêmes conditions, GPT-5.4 est à 67,8 % / 8,5 cents, et Sonnet 4.6 à 62,4 % / 15,3 cents.
Les données de coût sont calculées selon les tarifs publics des API des fournisseurs, sans optimisation de cache. (Source : BlockBeats)