TwELL desarrollado por Sakana AI y NVIDIA como código abierto, organiza los datos en bloques pequeños (tiles), empaquetando directamente en la memoria local datos útiles, saltándose cálculos inactivos en la activación casi nula en FFN, mejorando la eficiencia paralela de la GPU. En el entrenamiento de un modelo de 1.5 mil millones de parámetros, una ligera regularización reduce las neuronas activas a menos del 2%, sin cambios en las siete tareas downstream; la inferencia en H100 alcanza una aceleración máxima del 30%, el entrenamiento hasta un 24%, y la memoria de pico disminuye. Cuanto mayor sea el modelo, más neuronas en modo de descanso, la proporción de no nulos en un modelo de 2 mil millones de parámetros es un 38% menor que en uno de 500 millones, y en el futuro, los grandes modelos tendrán mayores beneficios.

BlockBeatNews

2026-05-10 04:50:47

Generación de resúmenes en curso

Según la monitorización de Beating, Sakana AI en colaboración con Nvidia ha abierto el formato de datos dispersos llamado TwELL y su núcleo de aceleración complementario, logrando que la GPU, al ejecutar grandes modelos, omita aquellos cálculos “casi nulos” e ineficaces. Esta solución, sin perder precisión en el modelo, aumenta hasta un 30% la velocidad de inferencia en H100, acelera el entrenamiento en un 24% y reduce significativamente el uso de memoria de pico.

La capa feedforward (FFN) de los grandes modelos consume la mayor parte de los parámetros y la potencia de cálculo. Pero en realidad, cada vez que se genera texto, más del 80% de las neuronas están en “estado de descanso” (valor de activación cercano a cero), sin contribuir al resultado final. Si se pudiera saltar estas neuronas, se ahorraría una enorme cantidad de potencia de cálculo. Sin embargo, las GPU modernas están diseñadas para calcular matrices densas y uniformes; si se usan métodos tradicionales para identificar y extraer datos dispersos útiles, el costo de buscar y leer estos datos hace que el ahorro de cálculo se pierda en el proceso.

El formato TwELL está diseñado precisamente para romper esta limitación de hardware. Se ajusta completamente a la lógica de paralelismo de la GPU: en lugar de ensamblar datos no nulos de manera fragmentada en diferentes regiones, divide los datos en pequeños bloques (tiles) que la GPU maneja mejor. De esta forma, los núcleos de cálculo de la GPU pueden empaquetar directamente los datos útiles localmente, eliminando por completo los costosos accesos globales a la memoria y encajando perfectamente en la línea de producción de aceleración de los chips modernos.

En pruebas con un modelo de 1.5 mil millones de parámetros, con solo aplicar una ligera regularización durante el entrenamiento, se logró reducir la proporción de neuronas que realmente necesitan cálculos a menos del 2%, sin que la precisión en siete tareas downstream disminuyera. Los datos también revelan una regla: cuanto mayor sea el tamaño del modelo, mayor será la proporción de neuronas en estado de descanso (el modelo de 2 mil millones de parámetros tiene un 38% menos de neuronas no nulas que el de 500 millones). Esto implica que, en la búsqueda futura de modelos aún más grandes, esta optimización específica para hardware subyacente ofrecerá beneficios de rendimiento aún más significativos.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.06M Popularidad
#
BTCBackAbove80K
59.45M Popularidad
#
IsraelStrikesIranBTCPlunges
45.63K Popularidad
#
JapanTokenizesGovernmentBonds
1.91M Popularidad
#
#DailyPolymarketHotspot
871.3K Popularidad

Anclado

Sakana AI se asocia con NVIDIA: hace que la GPU omita el 80% de los cálculos ineficaces en modelos grandes, acelerando la inferencia en H100 un 30%

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado