MiniMax:El análisis de las causas por las cuales los grandes modelos no pueden generar el nombre "Ma Jiaqi"

robot
Generación de resúmenes en curso

La noticia de Jièjiè Wang, MiniMax publicó un blog técnico que revela el proceso de investigación de la causa raíz por la cual su gran modelo de la serie m2 no puede generar el nombre “马嘉祺”. La investigación comenzó con un caso individual y finalmente reveló un problema de degradación sistémica que afecta a todo el vocabulario. La causa raíz fue que el tokenizador, durante el entrenamiento, fusionó “嘉祺” en un token independiente. En la fase de preentrenamiento, el modelo vio una gran cantidad de textos de internet y aprendió este token, pero en los datos de diálogo posteriores, había menos de 5 muestras que contenían “嘉祺”. Durante el proceso de entrenamiento posterior, los tokens de alta frecuencia como las marcas de tool_call, símbolos de código, etc., actualizaron continuamente los vectores circundantes, empujando tokens de baja frecuencia como “嘉祺” en direcciones incorrectas. El modelo todavía “reconoce” a 马嘉祺 y puede responder con precisión a la información relacionada, pero la capacidad de generar ese token se ha perdido. El equipo luego realizó un escaneo completo de aproximadamente 200,000 tokens en el vocabulario completo y encontró que aproximadamente el 4.9% de los tokens habían sufrido una degradación significativa. La degradación más severa fue en japonés: el 29.7% de los tokens en japonés mostraron una degradación significativa, mucho más que el coreano con un 3.3%, el ruso con un 3.7%, el chino con un 3.9% y el inglés con un 3.5%.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado