Sakana AI se asocia con NVIDIA: hace que la GPU omita el 80% de los cálculos ineficaces en modelos grandes, acelerando la inferencia H100 en un 30%

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Sakana AI en colaboración con Nvidia ha abierto el formato de datos dispersos llamado TwELL y su núcleo de aceleración complementario, logrando que la GPU, al ejecutar grandes modelos, omita aquellos cálculos “casi nulos” e ineficaces. Esta solución, sin perder precisión en el modelo, aumenta la velocidad de inferencia del H100 hasta en un 30%, acelera el entrenamiento en un 24% y reduce significativamente el uso de memoria de pico.
Las capas de alimentación hacia adelante (FFN) de los grandes modelos consumen la mayor parte de los parámetros y la potencia de cálculo. Pero en realidad, cada vez que se genera texto, más del 80% de las neuronas están en “estado de descanso” (valor de activación cercano a cero), sin contribuir al resultado final. Si se pudiera saltar estas neuronas, se ahorraría una enorme cantidad de potencia de cálculo.
Sin embargo, las GPU modernas están diseñadas para calcular matrices densas y uniformes; si se usan métodos tradicionales para identificar datos útiles dispersos, el costo de buscar y leer estos datos puede consumir toda la potencia ahorrada.
El formato TwELL está diseñado precisamente para romper esta maldición de hardware. Se ajusta completamente a la lógica de paralelismo de la GPU: ya no combina datos no nulos de diferentes regiones, sino que divide los datos en pequeños bloques (tiles) que la GPU maneja mejor.
De esta forma, los núcleos de cálculo de la GPU pueden empaquetar directamente los datos útiles localmente, eliminando por completo los costosos accesos a memoria global, integrándose perfectamente en la línea de producción de aceleración de los chips modernos.
En pruebas con un modelo de 1.5 mil millones de parámetros, solo con añadir una ligera regularización durante el entrenamiento, se puede reducir la proporción de neuronas que realmente necesitan cálculos a menos del 2%, sin que el rendimiento en siete tareas downstream disminuya.
Los datos también revelan una regla: cuanto mayor es el número de parámetros del modelo, mayor es la proporción de neuronas en estado de descanso (el porcentaje de no nulos en un modelo de 2 mil millones de parámetros es un 38% menor que en un modelo de 500 millones).
Esto significa que, en el futuro, a medida que se busque construir modelos aún más grandes, esta optimización dirigida al hardware subyacente liberará beneficios de rendimiento aún más considerables.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado