Se informa que Nous Research propuso TST: agrupar y promediar los tokens adyacentes en la fase inicial del entrenamiento, sin leer cada token individualmente en el 20-40% inicial, prediciendo los tokens agrupados, y luego restaurar la predicción convencional del siguiente token. La arquitectura subyacente no cambia y ha sido verificada en un modelo MoE de 10 mil millones de parámetros, reduciendo el tiempo de entrenamiento en 2-3 veces, lo que equivale a usar datos para aumentar la potencia computacional. Si los textos de alta calidad se agotan, la dependencia de datos podría convertirse en una limitación. Muy similar a "Beyond Next Token Prediction", pertenece a una investigación convergente y se añadirá una cita adicional.

MeNews

2026-05-17 04:00:22

Generación de resúmenes en curso

ME News Noticias, 14 de mayo (UTC+8), según la monitorización de Beating de Dongcha, Nous Research publicó un nuevo esquema de preentrenamiento de modelos grandes llamado entrenamiento por superposición de tokens (TST). Este esquema mediante la compresión y agrupamiento de tokens adyacentes en las primeras etapas de entrenamiento, puede reducir el tiempo de preentrenamiento en 2 a 3 veces bajo la misma cantidad de cálculo. TST consta de dos fases. En el 20% a 40% inicial del entrenamiento, el modelo ya no lee los tokens uno por uno, sino que agrupa los tokens adyacentes y calcula su promedio para ingresarlos, y en la salida predice qué tokens estarán en ese grupo (sin considerar el orden interno). Después, el modelo vuelve a la predicción convencional del siguiente token. Como no modifica la arquitectura subyacente, el modelo resultante es exactamente igual en inferencia que un modelo convencional. Este método ha sido validado en un modelo MoE de hasta 10 mil millones de parámetros. La esencia de este esquema es “convertir datos en potencia”, acelerando el consumo de corpus para reducir el tiempo de cálculo. Si en el futuro se agota el texto de alta calidad, esta característica de acelerar el consumo de datos podría convertirse en una desventaja. Además, unas horas después de la publicación del artículo, un lector señaló que el mecanismo de TST es muy similar a la obra anterior publicada en 2024 titulada “Beyond Next Token Prediction”. El equipo de autores posteriormente admitió en Hugging Face que se trataba de una “investigación convergente desafortunada” y prometió actualizar el artículo para añadir la referencia. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.92M Popularidad
#
CLARITYActPassesSenateCommittee
3.57M Popularidad
#
IsraelStrikesIranBTCPlunges
47.24K Popularidad
#
#DailyPolymarketHotspot
971.03K Popularidad
#
BitcoinVShapedReversalBack
227.15M Popularidad

Fijado

Aceleración de preentrenamiento de 2 a 3 veces, la nueva propuesta de Nous TST enfrenta controversias por "colisiones"

Temas de actualidad

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fijado