智谱发布GLM-5.1高速API,创下每秒400个词标的全球速度纪录

ドンチャビーティングの監視によると、知普は選定された企業クライアント向けにGLM-5.1高速APIをリリースし、モデル出力速度を400トークン/秒に達成し、大規模モデル公式インターフェースのエンドツーエンド速度の世界記録を更新しました。この高速バージョンは、元のフラッグシップモデルの能力を保持しつつ、知普とTileRTチームが共同開発した高性能推論エンジンによって動作しています。このエンジンはGPUの運用スケジューリングメカニズムを完全に再構築し、モデルを静的に永続的なエンジンカーネルに配置し、コンパイルフェーズ中にGPU上に常駐させます。シングルカード推論時には、計算、非同期I/O、通信がすべてタイルレベルのマイクロタスクに分解され、カーネルは一度だけ起動されます。演算子間の中間結果はレジスタや共有キャッシュを介して直接伝送され、従来の推論で頻繁にカーネル起動やメモリの読み書きによる遅延を排除します。マルチカード構成に拡張すると、TileRTは8カードのNVLトポロジー全体にわたる専門化並列性アプローチをさらに拡張し、もともと均一だったGPUノードを異種のワーカーに変換し、異なるタスクを担当させます。GLM-5.1のアテンション層計算を処理する際、システムはGPU 0をスパースインデックスの構築とルーティング決定に専念するスパースインデックスワーカーに割り当て、GPU 1から7は計算集約フェーズを担当するMLAワーカーを実行し、通信をタイルレベルのタスクパイプラインに完全に統合し、計算とカード間通信の深い重畳を実現しています。この高速サービスは現在、知普のMaaSプラットフォーム上の選定された企業クライアントに提供されています。将来的には、この技術はFP8推論や超長文コンテキスト生成環境をさらに最適化し、AIプログラミング、リアルタイムインタラクション、リアルタイム音声などの低遅延敏感なシナリオに対して、より決定的なパフォーマンスサポートを提供します。
ZHIPU26.55%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め