ドンチャビーティングの監視によると、知普は選定された企業クライアント向けにGLM-5.1高速APIをリリースし、モデル出力速度を400トークン/秒に達成し、大規模モデル公式インターフェースのエンドツーエンド速度の世界記録を更新しました。この高速バージョンは、元のフラッグシップモデルの能力を保持しつつ、知普とTileRTチームが共同開発した高性能推論エンジンによって動作しています。このエンジンはGPUの運用スケジューリングメカニズムを完全に再構築し、モデルを静的に永続的なエンジンカーネルに配置し、コンパイルフェーズ中にGPU上に常駐させます。シングルカード推論時には、計算、非同期I/O、通信がすべてタイルレベルのマイクロタスクに分解され、カーネルは一度だけ起動されます。演算子間の中間結果はレジスタや共有キャッシュを介して直接伝送され、従来の推論で頻繁にカーネル起動やメモリの読み書きによる遅延を排除します。マルチカード構成に拡張すると、TileRTは8カードのNVLトポロジー全体にわたる専門化並列性アプローチをさらに拡張し、もともと均一だったGPUノードを異種のワーカーに変換し、異なるタスクを担当させます。GLM-5.1のアテンション層計算を処理する際、システムはGPU 0をスパースインデックスの構築とルーティング決定に専念するスパースインデックスワーカーに割り当て、GPU 1から7は計算集約フェーズを担当するMLAワーカーを実行し、通信をタイルレベルのタスクパイプラインに完全に統合し、計算とカード間通信の深い重畳を実現しています。この高速サービスは現在、知普のMaaSプラットフォーム上の選定された企業クライアントに提供されています。将来的には、この技術はFP8推論や超長文コンテキスト生成環境をさらに最適化し、AIプログラミング、リアルタイムインタラクション、リアルタイム音声などの低遅延敏感なシナリオに対して、より決定的なパフォーマンスサポートを提供します。

ZHIPU26.55%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
TradfiTradingChallenge
322.91K 人気度
#
PlatinumCardCreatorExclusive
115.97K 人気度
#
IsraelStrikesIranBTCPlunges
49.03K 人気度
#
#DailyPolymarketHotspot
1.05M 人気度
#
GateSquarePizzaDay
649.86K 人気度

ピン留め

サイトマップ

智谱发布GLM-5.1高速API，创下每秒400个词标的全球速度纪录

人気の話題

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

ピン留め