MiniMax відкритий код бібліотеки уваги Blackwell, ваги M3 очікується опубліковані цього п’ятниці

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, керівник з розвитку відносин з розробниками MiniMax Райан Лі оголосив, що високопродуктивна бібліотека уваги MiniMax Sparse Attention (MSA) для GPU NVIDIA Blackwell (SM100) офіційно відкрито з ліцензією MIT. Райан Лі також зазначив, що ваги MiniMax-M3, ймовірно, будуть опубліковані цього п’ятниці. MSA вже застосована у мільйонному контекстному виведенні MiniMax-M3, де шляхом відбору найбільш релевантних блоків KV у кожній групі GQA виконується увага лише для обраних блоків. У статті показано, що при контексті з 1 мільйоном токенів, порівняно з такою ж конфігурацією Dense GQA, MSA зменшує обсяг обчислень уваги на 28.4 рази, а на GPU H800 досягає прискорення попереднього заповнення у 14.2 рази та прискорення декодування у 7.6 рази. Відкрита версія інтегрує у один Python-пакет дві реалізації — C++ JIT та CuTe-DSL, а також надає ядра Dense FlashAttention і Sparse Top-k Attention, підтримуючи різні формати точності, такі як BF16, FP8, NVFP4 і FP4. Наразі основна орієнтація — розгортання на GPU NVIDIA Blackwell (SM100). (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено