MiniMax biblioteca de atención exclusiva de Blackwell de código abierto, se espera que el peso M3 se publique este viernes.

robot
Generación de resúmenes en curso
ME AI Mensaje, según la monitorización de Beating, el responsable de relaciones con desarrolladores de MiniMax, Ryan Lee, anunció que la biblioteca de atención de alto rendimiento MiniMax Sparse Attention (MSA) para GPU NVIDIA Blackwell (SM100) ya está oficialmente de código abierto, bajo la licencia MIT. Ryan Lee también indicó que se espera que los pesos de MiniMax-M3 se publiquen este viernes. MSA ha sido aplicada en la inferencia de contexto de millones de tokens de MiniMax-M3, filtrando los bloques KV más relevantes en cada grupo GQA, y solo realizando cálculos de atención en los bloques seleccionados. Los estudios muestran que, en un contexto de 1 millón de tokens, en comparación con GQA denso con la misma configuración, MSA puede reducir la carga de cálculo de atención en 28.4 veces, logrando una aceleración de prellenado de 14.2 veces y una aceleración de decodificación de 7.6 veces en la GPU H800. La versión de código abierto integra en un mismo paquete Python dos implementaciones: C++ JIT y CuTe-DSL, además de ofrecer kernels de atención FlashAttention denso y Top-k disperso, soportando múltiples formatos de precisión como BF16, FP8, NVFP4 y FP4. Actualmente, está principalmente orientada a implementaciones en GPU NVIDIA Blackwell (SM100). (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado