Résumé : Le modèle M2 n'a pas réussi à produire 'Ma Jiaqi' parce que le tokenizer a fusionné 'Jiaqi' en un seul token lors de l'entraînement ; la rareté des données après l'entraînement a provoqué un décalage des tokens, notamment en japonais. Une réentraînement synthétique a corrigé ce décalage et restauré la stabilité.Résumé : Cet article résume une enquête sur les raisons pour lesquelles les grands modèles M2 de MiniMax n'ont pas réussi à produire le token 'Ma Jiaqi'. La cause principale était la fusion de tokens par le tokenizer pendant l'entraînement, aggravée par la pénurie de données après l'entraînement qui a conduit à un décalage des tokens et à un mélange linguistique, en particulier en japonais. Une analyse approfondie d'environ 200 000 tokens a montré une dégradation généralisée, le japonais étant le plus affecté. La solution consistait à créer un ensemble de données d'entraînement synthétique, avec tout le vocabulaire, afin que chaque token puisse être pratiqué. Après le réentraînement, la contamination interlangues a fortement diminué (les caractères russes dans les réponses japonaises sont passés de 47 % à 1 %), et la stabilité de l'espace vectoriel du vocabulaire (similarité cosinus) est passée de 0,329 à plus de 0,97.

AirdropBlackHole

2026-05-09 09:11:17

Création du résumé en cours

Selon la surveillance de Dongcha Beating, MiniMax a publié un blog technique révélant l’enquête sur la cause profonde de l’incapacité de son modèle de grande taille de la série M2 à sortir le nom « Ma Jiaqi ». L’enquête a commencé à partir d’un cas spécifique et a finalement révélé un problème de dégradation systémique affectant tout le vocabulaire. La cause profonde a été identifiée comme le tokenizer (un composant qui segmente le texte en unités pour le traitement par le modèle) fusionnant « Jiaqi » en un token autonome lors de l’entraînement. Lors de la phase de pré-entraînement, le modèle a rencontré une grande quantité de texte Internet et a appris ce token ; cependant, dans les données de dialogue post-entraînement, il y avait moins de 5 échantillons contenant « Jiaqi ». Pendant le post-entraînement, des tokens à haute fréquence comme les marqueurs tool_call et les symboles de code ont continuellement mis à jour l’espace vectoriel environnant, repoussant les tokens à faible fréquence comme « Jiaqi » dans la mauvaise direction. Le modèle « reconnaît » toujours Ma Jiaqi et peut répondre avec précision avec des informations connexes ; il a simplement perdu la capacité de sortir ce token. L’équipe a ensuite effectué une analyse complète d’environ 200 000 tokens dans tout le vocabulaire et a constaté qu’environ 4,9 % des tokens avaient subi une dégradation significative. La dégradation la plus grave a été observée en japonais : 29,7 % des tokens japonais ont montré une dégradation importante, dépassant largement le coréen (3,3 %), le russe (3,7 %), le chinois (3,9 %) et l’anglais (3,5 %). D’autres tokens notoirement dégradés comprenaient des termes de spam SEO Internet comme « serveur privé légendaire » et « avortement indolore », avec des mécanismes identiques à celui de « Jiaqi ». La grave dégradation en japonais a également résolu une vieille énigme. Auparavant, le modèle mélangeait occasionnellement des caractères russes ou coréens dans des dialogues japonais, mais la cause était inconnue. Cette analyse a indiqué qu’après le dérapage des paramètres des tokens japonais, ils sont devenus confus avec des tokens d’autres langues dans l’espace vectoriel, ce qui entraînait une activation incorrecte des tokens japonais (mélange de langues) et repoussait les tokens chinois à faible fréquence adjacents hors de la plage de probabilité normale (oubli de tokens). La solution consiste à construire un jeu de données synthétique couvrant tout le vocabulaire, permettant au modèle de pratiquer chaque token par des tâches de répétition simples. Les résultats ont été immédiats : la proportion de caractères russes mélangés dans les réponses japonaises est passée de 47 % à 1 %, et la stabilité des paramètres de sortie pour tout le vocabulaire (similarité cosinus) est passée d’un minimum de 0,329 à plus de 0,97.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
945.46K Popularité
#
BTCBackAbove80K
59.43M Popularité
#
IsraelStrikesIranBTCPlunges
45.32K Popularité
#
JapanTokenizesGovernmentBonds
1.89M Popularité
#
#DailyPolymarketHotspot
862.69K Popularité

Épingler

Pourquoi les grands modèles échouent à générer 'Ma Jiaqi' : l'analyse des jetons de MiniMax révèle que près de 5 % des jetons sont oubliés après l'entraînement

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler