萬億參數開源模型跑出981詞/秒,Cerebras測試KimiK2.6提速29倍

robot
摘要生成中
ME News 消息,5 月 20 日(UTC+8),據 動察 Beating 監測,晶圓級晶片公司 Cerebras 宣佈在企業測試中上線萬億參數大模型 Kimi K2.6,通過直接在整張 12 英寸矽晶圓上集成晶片,徹底消除了傳統板級通信的互聯延遲。
第三方評測機構 Artificial Analysis 實測顯示,其生成速度達到 981 tokens/s,比主流 GPU 雲服務快 6.7 倍。
在 10000 輸入、500 輸出 token 的長文本任務中,總響應耗時從 Kimi 官方接口的 163.7 秒縮短至 5.6 秒,提速達 29 倍。
由於模型權重被分配到多個晶圓中流式傳輸激活值,層間通信完全運行在晶圓內部的網絡織網上,其物理通信帶寬達到輝達 NVL72 架構中 NVLink 的 200 倍以上。
配合分布式計算優化,Kimi K2.6 以原始的 4-bit(4 位)權重進行低損存儲,計算時使用 16-bit(16 位)浮點數維持精度,並採用定制算子內核與推測性解碼最終達成實時化運行。
(來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆