Pourquoi le grand modèle ne peut-il pas générer « Ma Jiaqi » ? La recherche dans le vocabulaire complet de MiniMax a révélé que près de 5 % des tokens ont été oubliés lors de la formation ultérieure.

Selon le monitoring de Beating, MiniMax a publié un blog technique révélant le processus d’enquête sur la cause profonde empêchant le modèle majeur de la série M2 d’émettre le nom « Ma Jiaqi ».
L’enquête a commencé par un cas particulier, révélant finalement un problème systémique de dégradation affectant tout le vocabulaire.
La cause profonde est que le tokenizer (composant qui divise le texte en unités traitables par le modèle) a fusionné « Jiaqi » en un token indépendant lors de l’entraînement.
Pendant la phase de pré-entraînement, le modèle a vu une grande quantité de textes Internet et a appris ce token ; mais dans les données de dialogue postérieures, il y avait moins de 5 exemples contenant « Jiaqi ».
Au cours de l’entraînement ultérieur, les vecteurs autour des tokens à haute fréquence comme tool_call, les symboles de code, etc., ont été continuellement mis à jour, repoussant des tokens peu fréquents comme « Jiaqi » dans une mauvaise direction.
Le modèle « connaît » toujours Ma Jiaqi, peut répondre précisément aux informations connexes, mais la seule capacité perdue est celle de produire ce token.
L’équipe a ensuite effectué une analyse complète de l’ensemble du vocabulaire d’environ 200 000 tokens, découvrant que environ 4,9 % des tokens avaient subi une dégradation significative.
La dégradation la plus grave concerne le japonais : 29,7 % des tokens japonais ont fortement dégradé, bien au-delà du coréen 3,3 %, du russe 3,7 %, du chinois 3,9 % et de l’anglais 3,5 %.
Parmi les tokens en tête de la dégradation figurent aussi des mots-clés SEO comme « légendaire privé serveur » et « avortement sans douleur », qui ont le même mécanisme que « Jiaqi ».
La grave dégradation du japonais a également résolu une vieille énigme.
Auparavant, le modèle insérait occasionnellement des caractères russes ou coréens dans des dialogues en japonais, sans en connaître la cause.
L’analyse montre qu’après le décalage des paramètres du token japonais, ceux-ci se confondaient avec ceux d’autres langues dans l’espace vectoriel, ce qui entraînait à la fois une activation erronée des tokens japonais (mélange linguistique) et le déplacement hors de la plage de probabilité normale des tokens chinois voisins (oubli de tokens).
La solution consiste à construire un ensemble de données synthétiques couvrant tout le vocabulaire, permettant au modèle de s’entraîner à répéter chaque token simplement.
L’effet a été immédiat : la proportion de réponses en japonais mêlant des caractères russes est passée de 47 % à 1 %, et la stabilité des paramètres de sortie sur l’ensemble du vocabulaire (similarité cosinus) est passée de 0,329 au minimum à plus de 0,97 pour tous.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler