MiniMax открытая библиотека внимания Blackwell, предназначенная для эксклюзивного использования, вес M3 ожидается в эту пятницу

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, руководитель по связям с разработчиками MiniMax Райан Ли объявил, что высокопроизводительная библиотека внимания MiniMax Sparse Attention (MSA) для GPU NVIDIA Blackwell (SM100) официально открыта, лицензия MIT. Райан Ли также отметил, что веса MiniMax-M3, по предварительным оценкам, будут опубликованы в эту пятницу. MSA уже применяется в миллионном контексте для MiniMax-M3, осуществляя выбор наиболее релевантных блоков KV в каждом GQA-узле, выполняя вычисление внимания только для выбранных блоков. В статье показано, что при использовании 1 миллиона токенов в контексте, по сравнению с плотным GQA с аналогичной конфигурацией, MSA снижает объем вычислений внимания в 28.4 раза, достигая ускорения предварительной загрузки в 14.2 раза и ускорения декодирования в 7.6 раз на GPU H800. Открытая версия интегрирует в один Python-пакет две реализации: C++ JIT и CuTe-DSL, а также предоставляет ядра Dense FlashAttention и Sparse Top-k Attention, поддерживающие различные форматы точности, такие как BF16, FP8, NVFP4 и FP4. В настоящее время основное направление — развертывание на GPU NVIDIA Blackwell (SM100). (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено