通用GPU跑1T MoE破千token,这协同设计有点东西

币 界 网
币界网消息,小米Mimo团队与AI编译优化系统组Tilert宣布推出Mimo-v2.5-pro-ultraspeed推理模式。在单台标准的8卡通用GPU节点上,成功在1万亿参数的混合专家(MoE)模型上实现超过1,000 tokens/s的极限生成速度,峰值可达约1,200 tokens/s。这标志着在无需采用晶圆级集成或纯片上SRAM专用芯片等非常规硬件的情况下,仅凭标准通用硬件和模型-系统协同设计首次突破1T模型千token生成速度。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论