Tencent Hunyuan предложил алгоритм разреженного внимания Stem, задержка первого символа снизилась в 3,6 раза

Mars Finance сообщает 6 июня, Tencent Hunyuan объявила о предложении алгоритма разреженного внимания Stem, который уже включен в конференцию по машинному обучению ICML-26. Согласно полной стековой ускоряющей схеме алгоритма × HPC оператора, на уровне алгоритма Stem реализует почти без потерь точности при бюджете 25% за счет затухания положения токена (TPD) и метрики восприятия вывода (OAM); на уровне оператора, открытый исходный код HPC оператора Stem+BSA превращает разреженную прибыль в реальное аппаратное ускорение, при контексте около 128K задержка первой задержки уменьшилась в 3.7 раза. (Обзор с широким углом)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено