MiniMax @MiniMax_AI publica un artículo largo en respuesta a “el modelo no puede decir Ma Jiaqi”


MiniMax oficial publica un artículo largo en respuesta a la incapacidad del modelo de la serie M2 para decir Ma Jiaqi, proporcionando un proceso completo de investigación y reflexión técnica sobre el problema de “reconocimiento de Jiaqi”. ⬇️
MiniMax indica que realizó una investigación desde múltiples dimensiones, incluyendo la alineación de la versión del tokenizador, la distribución estadística de embeddings, la búsqueda de vecinos semánticos cercanos, experimentos comparativos de pocos disparos en modelos preentrenados y postentrenados, estadísticas de frecuencia de datos postentrenamiento, y un escaneo de clasificación de cambios en la amplitud de la capa lm_head en todo el vocabulario.
La causa final identificada fue: “Jiaqi” fue fusionado en un token independiente en el tokenizador, pero este token apareció con una frecuencia extremadamente baja en los datos de postentrenamiento, lo que llevó a que el modelo olvidara gradualmente su capacidad de generar ese token durante el postentrenamiento.
Ver original
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado