Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Pourquoi le grand modèle ne peut-il pas générer « Ma Jiaqi » ? La recherche dans le vocabulaire complet de MiniMax a révélé que près de 5 % des tokens ont été oubliés lors de la formation ultérieure.
Selon le monitoring de Beating, MiniMax a publié un blog technique révélant le processus d’enquête sur la cause profonde empêchant le modèle majeur de la série M2 d’émettre le nom « Ma Jiaqi ».
L’enquête a commencé par un cas particulier, révélant finalement un problème systémique de dégradation affectant tout le vocabulaire.
La cause profonde est que le tokenizer (composant qui divise le texte en unités traitables par le modèle) a fusionné « Jiaqi » en un token indépendant lors de l’entraînement.
Pendant la phase de pré-entraînement, le modèle a vu une grande quantité de textes Internet et a appris ce token ; mais dans les données de dialogue postérieures, il y avait moins de 5 exemples contenant « Jiaqi ».
Au cours de l’entraînement ultérieur, les vecteurs autour des tokens à haute fréquence comme tool_call, les symboles de code, etc., ont été continuellement mis à jour, repoussant des tokens peu fréquents comme « Jiaqi » dans une mauvaise direction.
Le modèle « connaît » toujours Ma Jiaqi, peut répondre précisément aux informations connexes, mais la seule capacité perdue est celle de produire ce token.
L’équipe a ensuite effectué une analyse complète de l’ensemble du vocabulaire d’environ 200 000 tokens, découvrant que environ 4,9 % des tokens avaient subi une dégradation significative.
La dégradation la plus grave concerne le japonais : 29,7 % des tokens japonais ont fortement dégradé, bien au-delà du coréen 3,3 %, du russe 3,7 %, du chinois 3,9 % et de l’anglais 3,5 %.
Parmi les tokens en tête de la dégradation figurent aussi des mots-clés SEO comme « légendaire privé serveur » et « avortement sans douleur », qui ont le même mécanisme que « Jiaqi ».
La grave dégradation du japonais a également résolu une vieille énigme.
Auparavant, le modèle insérait occasionnellement des caractères russes ou coréens dans des dialogues en japonais, sans en connaître la cause.
L’analyse montre qu’après le décalage des paramètres du token japonais, ceux-ci se confondaient avec ceux d’autres langues dans l’espace vectoriel, ce qui entraînait à la fois une activation erronée des tokens japonais (mélange linguistique) et le déplacement hors de la plage de probabilité normale des tokens chinois voisins (oubli de tokens).
La solution consiste à construire un ensemble de données synthétiques couvrant tout le vocabulaire, permettant au modèle de s’entraîner à répéter chaque token simplement.
L’effet a été immédiat : la proportion de réponses en japonais mêlant des caractères russes est passée de 47 % à 1 %, et la stabilité des paramètres de sortie sur l’ensemble du vocabulaire (similarité cosinus) est passée de 0,329 au minimum à plus de 0,97 pour tous.