Aceleración de preentrenamiento de 2 a 3 veces, la nueva propuesta de Nous TST enfrenta controversias por "colisiones"

robot
Generación de resúmenes en curso

ME News Noticias, 14 de mayo (UTC+8), según la monitorización de Beating de Dongcha, Nous Research publicó un nuevo esquema de preentrenamiento de modelos grandes llamado entrenamiento por superposición de tokens (TST). Este esquema mediante la compresión y agrupamiento de tokens adyacentes en las primeras etapas de entrenamiento, puede reducir el tiempo de preentrenamiento en 2 a 3 veces bajo la misma cantidad de cálculo. TST consta de dos fases. En el 20% a 40% inicial del entrenamiento, el modelo ya no lee los tokens uno por uno, sino que agrupa los tokens adyacentes y calcula su promedio para ingresarlos, y en la salida predice qué tokens estarán en ese grupo (sin considerar el orden interno). Después, el modelo vuelve a la predicción convencional del siguiente token. Como no modifica la arquitectura subyacente, el modelo resultante es exactamente igual en inferencia que un modelo convencional. Este método ha sido validado en un modelo MoE de hasta 10 mil millones de parámetros. La esencia de este esquema es “convertir datos en potencia”, acelerando el consumo de corpus para reducir el tiempo de cálculo. Si en el futuro se agota el texto de alta calidad, esta característica de acelerar el consumo de datos podría convertirse en una desventaja. Además, unas horas después de la publicación del artículo, un lector señaló que el mecanismo de TST es muy similar a la obra anterior publicada en 2024 titulada “Beyond Next Token Prediction”. El equipo de autores posteriormente admitió en Hugging Face que se trataba de una “investigación convergente desafortunada” y prometió actualizar el artículo para añadir la referencia. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado