SonicMoE 在 NVIDIA Blackwell GPU 上實現峰值吞吐量運行

robot
摘要生成中
ME News 消息,4 月 23 日(UTC+8),SonicMoE 宣佈現可在 NVIDIA Blackwell GPU 上實現峰值吞吐量運行。根據其提供的數據,該模型前向傳播和反向傳播的 TFLOPS 性能分別比 DeepGEMM 基準高出 54% 和 35%,前向傳播 TFLOPS 性能比 triton 官方範例高出 21%。同時,SonicMoE 仍保持了最小的激活記憶體佔用,與密集模型相同。(來源:InFoQ)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆