騰訊混元提出Stem稀疏注意力算法,首字延遲降低3.6倍

火星財經消息 6月5日消息,騰訊混元宣布提出Stem稀疏注意力算法,已被機器學習頂會ICML-26收錄。根據Stem算法×HPC算子的全棧加速方案,算法層面,Stem通過Token位置衰減(TPD)和輸出感知度量(OAM)實現25%預算下的近無損精度;算子層面,HPC開源的Stem+BSA算子將稀疏收益轉化為真實硬體加速,128K上下文下首字延遲降低3.7倍。(廣角觀察)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆