Pourquoi les grands modèles échouent à générer 'Ma Jiaqi' : l'analyse des jetons de MiniMax révèle que près de 5 % des jetons sont oubliés après l'entraînement

robot
Création du résumé en cours

Selon la surveillance de Dongcha Beating, MiniMax a publié un blog technique révélant l’enquête sur la cause profonde de l’incapacité de son modèle de grande taille de la série M2 à sortir le nom « Ma Jiaqi ». L’enquête a commencé à partir d’un cas spécifique et a finalement révélé un problème de dégradation systémique affectant tout le vocabulaire. La cause profonde a été identifiée comme le tokenizer (un composant qui segmente le texte en unités pour le traitement par le modèle) fusionnant « Jiaqi » en un token autonome lors de l’entraînement. Lors de la phase de pré-entraînement, le modèle a rencontré une grande quantité de texte Internet et a appris ce token ; cependant, dans les données de dialogue post-entraînement, il y avait moins de 5 échantillons contenant « Jiaqi ». Pendant le post-entraînement, des tokens à haute fréquence comme les marqueurs tool_call et les symboles de code ont continuellement mis à jour l’espace vectoriel environnant, repoussant les tokens à faible fréquence comme « Jiaqi » dans la mauvaise direction. Le modèle « reconnaît » toujours Ma Jiaqi et peut répondre avec précision avec des informations connexes ; il a simplement perdu la capacité de sortir ce token. L’équipe a ensuite effectué une analyse complète d’environ 200 000 tokens dans tout le vocabulaire et a constaté qu’environ 4,9 % des tokens avaient subi une dégradation significative. La dégradation la plus grave a été observée en japonais : 29,7 % des tokens japonais ont montré une dégradation importante, dépassant largement le coréen (3,3 %), le russe (3,7 %), le chinois (3,9 %) et l’anglais (3,5 %). D’autres tokens notoirement dégradés comprenaient des termes de spam SEO Internet comme « serveur privé légendaire » et « avortement indolore », avec des mécanismes identiques à celui de « Jiaqi ». La grave dégradation en japonais a également résolu une vieille énigme. Auparavant, le modèle mélangeait occasionnellement des caractères russes ou coréens dans des dialogues japonais, mais la cause était inconnue. Cette analyse a indiqué qu’après le dérapage des paramètres des tokens japonais, ils sont devenus confus avec des tokens d’autres langues dans l’espace vectoriel, ce qui entraînait une activation incorrecte des tokens japonais (mélange de langues) et repoussait les tokens chinois à faible fréquence adjacents hors de la plage de probabilité normale (oubli de tokens). La solution consiste à construire un jeu de données synthétique couvrant tout le vocabulaire, permettant au modèle de pratiquer chaque token par des tâches de répétition simples. Les résultats ont été immédiats : la proportion de caractères russes mélangés dans les réponses japonaises est passée de 47 % à 1 %, et la stabilité des paramètres de sortie pour tout le vocabulaire (similarité cosinus) est passée d’un minimum de 0,329 à plus de 0,97.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler