億パラメータのオープンソースモデルが981語/秒を達成、CerebrasのテストでKimiK2.6が29倍高速化

robot
概要作成中
ME News ニュース、5月20日(UTC+8)、動察 Beatingのモニタリングによると、ウェハーレベルチップ企業Cerebrasは、企業テストにおいて1兆パラメータの大規模モデルKimi K2.6を稼働させたと発表した。直接12インチのシリコンウェハー全体にチップを集積することで、従来のボードレベル通信の相互接続遅延を完全に排除した。第三者評価機関Artificial Analysisの実測によると、その生成速度は981 tokens/sに達し、主流のGPUクラウドサービスよりも6.7倍速い。10,000入力、500出力トークンの長文タスクでは、総応答時間がKimi公式インターフェースの163.7秒から5.6秒に短縮され、29倍の高速化を達成した。モデルウェイトが複数のウェハーに分散され、アクティベーション値がストリーミング転送されるため、層間通信は完全にウェハー内部のネットワーク織物上で実行され、その物理通信帯域幅はNVIDIA NVL72アーキテクチャのNVLinkの200倍以上に達する。分散コンピューティングの最適化と組み合わせて、Kimi K2.6は元の4ビット(4-bit)ウェイトで低損失保存を行い、計算時には16ビット(16-bit)浮動小数点数で精度を維持し、カスタム演算子カーネルと推測デコードを採用して最終的にリアルタイム実行を実現した。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし