通用GPU跑1T MoE破千token,這協同設計有點東西

查看原文
币 界 网
币界網消息,小米Mimo團隊與AI編譯優化系統組Tilert宣布推出Mimo-v2.5-pro-ultraspeed推理模式。在單台標準的8卡通用GPU節點上,成功在1萬億參數的混合專家(MoE)模型上實現超過1,000 tokens/s的極限生成速度,峰值可達約1,200 tokens/s。這標誌著在無需採用晶圓級集成或純片上SRAM專用芯片等非常規硬件的情況下,僅憑標準通用硬件和模型-系統協同設計首次突破1T模型千token生成速度。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆