ME News reporta que FlashKDA es una herramienta de código abierto para aceleración de inferencia dirigida a NVIDIA Hopper, con licencia MIT, centrada en la atención KDA de Kimi Linear. Reescrita con CUTLASS, en Hopper la inferencia hacia adelante es aproximadamente 1.7 a 2.2 veces más rápida que la versión Triton, adecuada para entradas de longitud variable y escenarios por lotes. Solo soporta inferencia hacia adelante, el entrenamiento sigue usando Triton. Requisitos de hardware: Hopper+, CUDA 12.9, PyTorch 2.4+; ya integrado en la rama principal de fla (PR #852), cambiar solo requiere modificar una línea de configuración.

MeNews

2026-04-22 02:01:40

Generación de resúmenes en curso

Noticias ME News, 22 de abril (UTC+8), según la monitorización de Dongcha Beating, Moon’s Dark Side ha abierto en GitHub FlashKDA, una herramienta diseñada específicamente para acelerar la inferencia de modelos en tarjetas gráficas Nvidia Hopper (H100, H20, etc.), bajo la licencia MIT. Su objetivo es KDA, la nueva mecanismo de atención propuesta el año pasado en el artículo Kimi Linear. Cuando los grandes modelos leen textos largos, el cálculo de la atención tradicional crece con el cuadrado de la longitud, mientras que la atención lineal reduce ese coste a un crecimiento lineal, y KDA es una versión mejorada en esa línea. La estructura del modelo Kimi Linear consiste en 3 capas de KDA alternadas con 1 capa de atención tradicional. Antes, ya existía una versión escrita en Triton, alojada en la biblioteca de código abierto flash-linear-attention (abreviada fla). FlashKDA ha sido reescrita usando la biblioteca GPU de bajo nivel de Nvidia, CUTLASS, específicamente para aprovechar al máximo el rendimiento de las tarjetas Hopper. Las pruebas oficiales en H20 muestran que, en una misma pasada hacia adelante, FlashKDA es de 1.7 a 2.2 veces más rápida que la versión en Triton, con mejoras especialmente notorias en escenarios con longitudes de entrada variables y procesamiento en lotes. Sin embargo, la comparación oficial solo se hizo con la versión en Triton, sin compararla con otras soluciones de atención lineal. Esta vez, solo se ha abierto el código para la inferencia hacia adelante, lo que significa que solo se puede “ejecutar el modelo” (inferencia), pero no “entrenar el modelo”; el entrenamiento sigue requiriendo la versión original en Triton. Requisitos de uso: la tarjeta gráfica debe ser Hopper o posterior (arquitectura SM90 en adelante), CUDA 12.9 o superior, PyTorch 2.4 o superior. FlashKDA también se ha integrado como un nuevo backend en la rama principal de fla (PR #852), y los usuarios existentes solo necesitan cambiar una línea en la configuración para migrar. (Fuente: BlockBeats)

KDA3,6%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
Gate13thAnniversaryLive
807.46K Popularidad
#
WCTCTradingChallengeShare8MUSDT
775.92K Popularidad
#
BitcoinBouncesBack
195.02K Popularidad
#
IsraelStrikesIranBTCPlunges
30.62K Popularidad
#
USIranTalksProgress
565.51K Popularidad

Anclado

La cara oculta de la luna lanza FlashKDA de código abierto, Kimi Linear aumenta la velocidad de inferencia de 1.7 a 2.2 veces

Temas de actualidad

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Anclado