Sakana AI se asocia con NVIDIA: hace que la GPU omita el 80% de los cálculos ineficaces en modelos grandes, acelerando la inferencia en H100 un 30%

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Sakana AI en colaboración con Nvidia ha abierto el formato de datos dispersos llamado TwELL y su núcleo de aceleración complementario, logrando que la GPU, al ejecutar grandes modelos, omita aquellos cálculos “casi nulos” e ineficaces. Esta solución, sin perder precisión en el modelo, aumenta hasta un 30% la velocidad de inferencia en H100, acelera el entrenamiento en un 24% y reduce significativamente el uso de memoria de pico.

La capa feedforward (FFN) de los grandes modelos consume la mayor parte de los parámetros y la potencia de cálculo. Pero en realidad, cada vez que se genera texto, más del 80% de las neuronas están en “estado de descanso” (valor de activación cercano a cero), sin contribuir al resultado final. Si se pudiera saltar estas neuronas, se ahorraría una enorme cantidad de potencia de cálculo. Sin embargo, las GPU modernas están diseñadas para calcular matrices densas y uniformes; si se usan métodos tradicionales para identificar y extraer datos dispersos útiles, el costo de buscar y leer estos datos hace que el ahorro de cálculo se pierda en el proceso.

El formato TwELL está diseñado precisamente para romper esta limitación de hardware. Se ajusta completamente a la lógica de paralelismo de la GPU: en lugar de ensamblar datos no nulos de manera fragmentada en diferentes regiones, divide los datos en pequeños bloques (tiles) que la GPU maneja mejor. De esta forma, los núcleos de cálculo de la GPU pueden empaquetar directamente los datos útiles localmente, eliminando por completo los costosos accesos globales a la memoria y encajando perfectamente en la línea de producción de aceleración de los chips modernos.

En pruebas con un modelo de 1.5 mil millones de parámetros, con solo aplicar una ligera regularización durante el entrenamiento, se logró reducir la proporción de neuronas que realmente necesitan cálculos a menos del 2%, sin que la precisión en siete tareas downstream disminuyera. Los datos también revelan una regla: cuanto mayor sea el tamaño del modelo, mayor será la proporción de neuronas en estado de descanso (el modelo de 2 mil millones de parámetros tiene un 38% menos de neuronas no nulas que el de 500 millones). Esto implica que, en la búsqueda futura de modelos aún más grandes, esta optimización específica para hardware subyacente ofrecerá beneficios de rendimiento aún más significativos.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado