Acheter Cryptos

Payer en

USD

Acheter & Vendre

Visa, Mastercard, SEPA et bien plus

Trading flexible, zéro frais

Payez partout avec vos cryptos

Basique

Échangez des cryptos librement

Augmentez vos bénéfices grâce à l'effet de levier

Convertir & Auto-investir

Tradez n’importe quel volume sans frais ni slippage

Soyez facilement exposé à des positions à effet de levier

Trading Pre-Market

Tradez de nouveaux tokens avant le listing

Avancé

Effectuez des transactions on-chain avec Gate Wallet

Accès aux nouveaux tokens on-chain

Stratégies de trading automatisées

Suivez les experts

CrossEx Trading

Un seul solde de marge, partagé par toutes les plateformes

Accédez à des centaines de contrats perpétuels

Une plateforme pour les actifs mondiaux

Tradez des options classiques de style européen

Maximiser l'efficacité de votre capital

Introduction au trading futures

Préparez-vous à trader des contrats futurs

Événements futures

Participez aux événements et gagnez

Utiliser des fonds virtuels pour faire l'expérience du trading sans risque

Produits dérivés CFD sur actions américaines

Accédez à de véritables actions et ETF américains

Tradez des actions des actions de qualité cotées à Hong Kong

Actions coréennes

Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires

Futures sur actions

Effet de levier élevé, trading 24h/24 et 7j/7

Actions tokenisées

Adossé à de véritables actions

Accédez à l'intégralité des introductions en bourse mondiales

Mint GUSD pour des rendements de Treasury RWA

Activités boursières

Tradez des actions populaires et débloquez des airdrops généreux

Lancer

Collecte des candies pour obtenir des airdrops

Staking rapide, Gagnez de potentiels nouveaux jetons

Conservez des GT et recevez d'énormes airdrops gratuitement

Accédez à l'intégralité des introductions en bourse mondiales

Tradez on-chain et gagnez des airdrops

Gagnez des points Futures et réclamez vos récompenses d’airdrop.

Investissement

Gagner des intérêts avec des jetons inutilisés

Investissement automatique

Auto-invest régulier

Double investissement

Profitez de la volatilité du marché

Gagnez des récompenses grâce au staking flexible

Mettre en gage un crypto pour en emprunter une autre

Centre de prêts

Centre de prêts intégré

Gestion de patrimoine VIP

Plans premium de croissance

Façonnez votre avenir financier

Stratégies quantitatives

Stakez des cryptos pour gagner avec les produits PoS.

Effet de levier sans liquidation

Sans blocage, tradez & retirez

Découvrir la valeur en crypto

Analyse en temps réel du marché des cryptomonnaies

Discutez avec des traders de cryptomonnaies

Ce qu'il se passe dans le monde de la crypto

Plus

Promotions

Centre d'activités

Participez et gagnez des récompenses

Invitez des amis et gagnez des récompenses

Programme d'affiliation

Obtenez des commissions exclusives

Développez votre influence et gagnez des airdrops

Mises à jour en temps réel

Articles sur le secteur de la crypto

Frais ultra-réduits

Gestion des actifs

Solution complète de gestion des actifs

Solutions d’actifs pour entreprises

Développeurs (API)

Connectez-vous à l'écosystème Gate

Virement Bancaire OTC

Dépôt et retrait fiat

Programme pour les Brokers

Mécanismes de remboursement API avantageux

AI

Votre assistant IA polyvalent pour toutes vos conversations

Utilisez Gate AI directement dans votre application sociale

Gate Blue Lobster, prêt à l’emploi

Gate for AI Agent

Infrastructure IA, Gate MCP, Skills et CLI

Gate Skills Hub

+10K compétences

De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA

Autres

Trouver des FAQ et des guides d'aide

Apprenez à investir dans les cryptomonnaies

Grandir avec les champions

Preuve de réserves

Gate promet une preuve de réserves à 100 %

Assurez la sécurité de vos actifs

V4后训练换代：OPD替代混合RL，十余个专家模型蒸馏为一

2026-07-02 06:56:03

Création du résumé en cours

ME News rapporte, le 24 avril (UTC+8), selon la surveillance de Beating, que la méthodologie de post-entraînement de DeepSeek V4 a subi un changement majeur : la phase de mixed RL de V3.2 a été entièrement remplacée par l'On-Policy Distillation (OPD, distillation de politique en ligne).
Le nouveau processus comporte deux étapes. Premièrement, pour les domaines tels que les mathématiques, le code, les agents et le suivi d'instructions, des modèles experts de domaine sont entraînés séparément sur la base du pipeline V3.2. Chaque expert subit d'abord un fine-tuning puis un apprentissage par renforcement avec GRPO.
Deuxièmement, en utilisant l'OPD multi-enseignants, les capacités d'une dizaine d'experts sont distillées dans un modèle unifié : l'élève, sur ses propres trajectoires générées, effectue une distillation logit sur l'ensemble du vocabulaire avec divergence KL inverse pour chaque enseignant. Grâce à l'alignement au niveau des logits, les poids des multiples experts sont combinés dans un espace de paramètres unifié, évitant les conflits de capacités courants dans le weight merging traditionnel et le mixed RL.
Le rapport propose également le Generative Reward Model (GRM, modèle de récompense génératif) : pour les tâches difficiles à vérifier avec des règles, on n'entraîne plus de modèle de récompense scalaire traditionnel. Au lieu de cela, on entraîne un GRM avec des données RL guidées par une rubrique, permettant au réseau acteur d'assumer à la fois la génération et l'évaluation. Avec un petit nombre d'annotations humaines diversifiées, il peut généraliser à des tâches complexes.
(Source : BlockBeats)

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateCompletesDividendDistribution
536,07K Popularité
#
CirclePlunges17%
4,16M Popularité
#
IsraelStrikesIranBTCPlunges
67,51K Popularité
#
PredictWorldCupShare20000U
162,79K Popularité
#
GateCardPointsSystemLaunched
120,28K Popularité

Épinglé