万亿参数开源模型跑出981词/秒,Cerebras测试KimiK2.6提速29倍

robot
摘要生成中
ME News 消息,5 月 20 日(UTC+8),据 动察 Beating 监测,晶圆级芯片公司 Cerebras 宣布在企业测试中上线万亿参数大模型 Kimi K2.6,通过直接在整张 12 英寸硅晶圆上集成芯片,彻底消除了传统板级通信的互联延迟。 第三方评测机构 Artificial Analysis 实测显示,其生成速度达到 981 tokens/s,比主流 GPU 云服务快 6.7 倍。在 10000 输入、500 输出 token 的长文本任务中,总响应耗时从 Kimi 官方接口的 163.7 秒缩短至 5.6 秒,提速达 29 倍。 由于模型权重被分配到多个晶圆中流式传输激活值,层间通信完全运行在晶圆内部的网络织网上,其物理通信带宽达到英伟达 NVL72 架构中 NVLink 的 200 倍以上。配合分布式计算优化,Kimi K2.6 以原始的 4-bit(4 位)权重进行低损存储,计算时使用 16-bit(16 位)浮点数维持精度,并采用定制算子内核与推测性解码最终达成实时化运行。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论