MiniMax @MiniMax_AI publie un long message en réponse à “le modèle ne peut pas dire Ma Jiaqi”


MiniMax officiel a publié un long message en réponse à l’incapacité du modèle de la série M2 à prononcer Ma Jiaqi, fournissant un processus complet de diagnostic du problème de “reconnaissance de Jiaqi” et une réflexion technique. ⬇️
MiniMax indique qu’ils ont effectué des vérifications à plusieurs niveaux, notamment l’alignement de la version du tokenizer, la distribution statistique des embeddings, la recherche de voisins sémantiques proches, des expériences comparatives entre modèles pré-entraînés et post-entraînés en mode few-shot, la statistique de fréquence des données post-entraînement, ainsi que le tri et la balayage de l’amplitude de changement du lm_head sur tout le vocabulaire.
La cause finalement identifiée est que : “Jiaqi” est fusionné en un token indépendant dans le tokenizer, mais ce token apparaît très rarement dans les données post-entraînement, ce qui conduit le modèle à oublier progressivement sa capacité à générer ce token lors du post-entraînement.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler