Resumen: El modelo M2 no logró generar 'Ma Jiaqi' porque el tokenizador fusionó 'Jiaqi' en un solo token durante el entrenamiento; la escasez de datos post-entrenamiento causó deriva de tokens, especialmente en japonés. Una retraining sintética corrigió la deriva y restauró la estabilidad.Resumen: Este artículo resume una investigación sobre por qué los grandes modelos M2 de MiniMax no lograron producir el token 'Ma Jiaqi'. La causa raíz fue la fusión de tokens en el tokenizador durante el entrenamiento, agravada por la escasez de datos post-entrenamiento que llevó a la deriva de tokens y mezcla de idiomas, especialmente en japonés. Un escaneo exhaustivo de aproximadamente 200,000 tokens mostró un deterioro generalizado, siendo el japonés el más afectado. La solución fue crear un conjunto de datos de entrenamiento sintético, con vocabulario completo, para que cada token pudiera practicarse. Después del retraining, la contaminación entre idiomas disminuyó drásticamente (las caracteres rusos en respuestas en japonés pasaron del 47% al 1%), y la estabilidad del espacio vectorial del vocabulario (similitud coseno) aumentó de 0.329 a más de 0.97.

AirdropBlackHole

2026-05-09 09:11:17

Generación de resúmenes en curso

Según la monitorización de Dongcha Beating, MiniMax publicó un blog técnico revelando la causa raíz de la incapacidad de su modelo grande de la serie M2 para generar el nombre ‘Ma Jiaqi’. La investigación comenzó con un caso específico y finalmente reveló un problema de degradación sistémica que afectaba a todo el vocabulario. La causa raíz fue identificada como el tokenizador (un componente que segmenta el texto en unidades para el procesamiento del modelo) que fusionaba ‘Jiaqi’ en un token independiente durante el entrenamiento. En la fase de preentrenamiento, el modelo encontró una gran cantidad de texto de internet y aprendió este token; sin embargo, en los datos de diálogo posteriores al entrenamiento, había menos de 5 muestras que contenían ‘Jiaqi’. Durante el post-entrenamiento, tokens de alta frecuencia como marcadores de llamada a herramientas y símbolos de código actualizaron continuamente el espacio vectorial circundante, empujando a tokens de baja frecuencia como ‘Jiaqi’ en la dirección equivocada. El modelo aún ‘reconoce’ a Ma Jiaqi y puede responder con precisión con información relacionada; simplemente ha perdido la capacidad de generar este token. El equipo posteriormente realizó un escaneo exhaustivo de aproximadamente 200,000 tokens en todo el vocabulario y encontró que alrededor del 4.9% de los tokens habían sufrido una degradación significativa. La degradación más severa se observó en japonés: el 29.7% de los tokens japoneses mostraron una degradación significativa, muy por encima del coreano (3.3%), ruso (3.7%), chino (3.9%) e inglés (3.5%). Otros tokens notablemente degradados incluían términos basura de SEO en internet como ‘servidor privado legendario’ y ‘aborto sin dolor’, con mecanismos idénticos a los de ‘Jiaqi’. La grave degradación en japonés también resolvió un antiguo misterio. Anteriormente, el modelo mezclaba ocasionalmente caracteres rusos o coreanos en diálogos en japonés, pero la causa era desconocida. Este análisis indicó que, tras la deriva de parámetros de los tokens japoneses, estos se confundieron con tokens de otros idiomas en el espacio vectorial, lo que llevó a una activación incorrecta de los tokens japoneses (mezcla de idiomas) y a empujar a los tokens chinos de baja frecuencia adyacentes fuera del rango de probabilidad normal (olvido de tokens). La solución consiste en construir un conjunto de datos sintético que cubra todo el vocabulario, permitiendo que el modelo practique cada token mediante tareas simples de repetición. Los resultados fueron inmediatos: la proporción de caracteres rusos mezclados en las respuestas en japonés cayó del 47% al 1%, y la estabilidad de los parámetros de salida para todo el vocabulario (similitud coseno) aumentó desde un mínimo de 0.329 a todos por encima de 0.97.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
945.1K Popularidad
#
BTCBackAbove80K
59.43M Popularidad
#
IsraelStrikesIranBTCPlunges
45.32K Popularidad
#
JapanTokenizesGovernmentBonds
1.89M Popularidad
#
#DailyPolymarketHotspot
862.69K Popularidad

Anclado

Por qué los modelos grandes no logran generar 'Ma Jiaqi': El análisis de tokens de MiniMax revela que casi el 5% de los tokens se olvidan en el post-entrenamiento

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado