Acheter Cryptos

Payer en

USD

Acheter & Vendre

Visa, Mastercard, SEPA et bien plus

Trading flexible, zéro frais

Payez partout avec vos cryptos

Basique

Échangez des cryptos librement

Augmentez vos bénéfices grâce à l'effet de levier

Convertir & Auto-investir

Tradez n’importe quel volume sans frais ni slippage

Soyez facilement exposé à des positions à effet de levier

Trading Pre-Market

Tradez de nouveaux tokens avant le listing

Avancé

Effectuez des transactions on-chain avec Gate Wallet

Accès aux nouveaux tokens on-chain

Stratégies de trading automatisées

Suivez les experts

CrossEx Trading

Un seul solde de marge, partagé par toutes les plateformes

Accédez à des centaines de contrats perpétuels

Une plateforme pour les actifs mondiaux

Tradez des options classiques de style européen

Maximiser l'efficacité de votre capital

Introduction au trading futures

Préparez-vous à trader des contrats futurs

Événements futures

Participez aux événements et gagnez

Utiliser des fonds virtuels pour faire l'expérience du trading sans risque

Lancer

Collecte des candies pour obtenir des airdrops

Staking rapide, Gagnez de potentiels nouveaux jetons

Conservez des GT et recevez d'énormes airdrops gratuitement

Accédez à l'intégralité des introductions en bourse mondiales

Tradez on-chain et gagnez des airdrops

Gagnez des points Futures et réclamez vos récompenses d’airdrop.

Investissement

Gagner des intérêts avec des jetons inutilisés

Investissement automatique

Auto-invest régulier

Double investissement

Profitez de la volatilité du marché

Gagnez des récompenses grâce au staking flexible

Mettre en gage un crypto pour en emprunter une autre

Centre de prêts

Centre de prêts intégré

Gestion de patrimoine VIP

Plans premium de croissance

Gestion privée de patrimoine

Allocation premium d'actifs

Stratégies quantitatives

Stakez des cryptos pour gagner avec les produits PoS.

Effet de levier sans liquidation

Mint des GUSD pour des rendements RWA

Découvrir la valeur en crypto

Analyse en temps réel du marché des cryptomonnaies

Discutez avec des traders de cryptomonnaies

Ce qu'il se passe dans le monde de la crypto

Plus

Promotions

Centre d'activités

Participez et gagnez des récompenses

Invitez des amis et gagnez des récompenses

Programme d'affiliation

Obtenez des commissions exclusives

Développez votre influence et gagnez des airdrops

Mises à jour en temps réel

Articles sur le secteur de la crypto

Frais ultra-réduits

Gestion des actifs

Solution complète de gestion des actifs

Solutions d’actifs pour entreprises

Virement Bancaire OTC

Dépôt et retrait fiat

Programme pour les Brokers

Mécanismes de remboursement API avantageux

AI

Votre assistant IA polyvalent pour toutes vos conversations

Utilisez Gate AI directement dans votre application sociale

Gate Blue Lobster, prêt à l’emploi

Gate for AI Agent

Infrastructure IA, Gate MCP, Skills et CLI

Gate Skills Hub

+10K compétences

De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA

Choisissez intelligemment parmi plus de 30 modèles d’IA, avec 0 % de frais supplémentaires

Autres

Trouver des FAQ et des guides d'aide

Apprenez à investir dans les cryptomonnaies

Grandir avec les champions

Preuve de réserves

Gate promet une preuve de réserves à 100 %

Assurez la sécurité de vos actifs

Évolution après formation dans V4 : OPD remplace RL mixte, en distillant plusieurs modèles d'experts en un seul

AirdropBlackHole

2026-04-26 01:47:01

Selon la surveillance de Beating, la méthodologie post-formation de DeepSeek V4 a subi des changements importants : la phase de RL mixte de V3.2 a été complètement remplacée par la Distillation On-Policy (OPD). Le nouveau processus se compose de deux étapes. Dans la première étape, des modèles d’experts en domaine sont entraînés dans des domaines tels que les mathématiques, la programmation, le comportement des agents et le suivi des instructions, en se basant sur le pipeline V3.2. Chaque expert subit un ajustement fin suivi d’un apprentissage par renforcement utilisant GRPO. Dans la deuxième étape, une distillation OPD multi-enseignants compile les capacités de plus de dix experts en un modèle unifié : l’étudiant effectue une distillation de logit par divergence KL inverse sur tout le vocabulaire pour chaque enseignant en se basant sur ses propres trajectoires générées, en alignant les logits pour fusionner plusieurs poids d’experts dans un espace de paramètres unifié, évitant ainsi les conflits de capacités couramment observés dans la fusion de poids traditionnelle et le RL mixte. Le rapport introduit également le Modèle de Récompense Générative (GRM) : pour les tâches difficiles à valider avec des règles, au lieu d’entraîner un modèle de récompense scalaire traditionnel, des données RL guidées par des rubriques sont utilisées pour entraîner le GRM, permettant au réseau d’acteur de générer et d’évaluer simultanément, ce qui facilite la généralisation à des tâches complexes avec une petite quantité d’annotations humaines diversifiées.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
324.01K Popularité
#
CryptoMarketsDipSlightly
224.49K Popularité
#
IsraelStrikesIranBTCPlunges
35.1K Popularité
#
#DailyPolymarketHotspot
657.08K Popularité
#
SolanaReleasesQuantumRoadmap
12.74M Popularité

Épingler