(出典:云天励飞)最近、云天励飞は湛江市のAI浸透支援による新たな生産力基盤インフラ整備プロジェクトに落札しました。プロジェクトの計画に基づき、同社は自主開発した国産AI推論高速化カードを用いて、AI推論計算能力クラスターの構築に参加し、DeepSeekなどの国産大規模モデルの適用と展開を推進し、行政や産業のデジタル化アプリケーションに対して計算力基盤を提供します。大規模モデルの応用に向けた推論計算能力基盤の構築今回のプロジェクトで構築されるAI推論計算能力クラスターは、大規模モデルの推論タスクのニーズに基づいてシステム設計が行われます。大規模モデルの推論過程では、異なる計算段階でシステムリソースの要求が異なります。現在、業界では一般的に「プリフィル–デコード分離」の推論アーキテクチャを採用しており、各段階のリソース配分を最適化することで、システム全体の運用効率を向上させています。このアーキテクチャでは、プリフィル段階は長いコンテキストの理解と計算を主に担当し、計算能力と帯域幅の要求が高いです。一方、デコード段階は継続的にトークンを生成し、システムの遅延に対してより敏感です。プロジェクトの構築過程では、各段階の特性に合わせて計算リソースの配分とシステムの最適化を行います。また、モデルのコンテキスト長が増加するにつれて、多くの中間状態をKVキャッシュの形で保存する必要があります。この特徴に基づき、システム設計では計算、記憶、ネットワーク間の協調を最適化し、データアクセス効率とシステム全体の性能向上を図ります。ネットワークアーキテクチャについては、統一された高速インターコネクトアーキテクチャを採用し、400G光ネットワークを通じてクラスターの物理層ネットワークを構築します。これにより、ノード間の高帯域・低遅延通信を実現し、単一ノードの数十GPU規模から千GPU規模のクラスターへの拡張も可能となり、さまざまな規模のAIアプリケーションのニーズに対応します。プロジェクトの全体構築完了後、大規模モデルの推論タスクに対応した計算能力基盤が形成され、関連アプリケーションシナリオに安定した計算力を提供します。AI推論チップと計算システム技術の継続的な研究開発プロジェクトの計画によると、今回のAI推論計算能力クラスターは三期に分けて構築され、クラウド天励飛の自主開発した国産AI推論高速化カードを採用します。第一期では、クラウド天励飛のX6000推論高速化カードを展開し、将来的には同社の最新世代チップを搭載します。AI推論チップの研究開発において、クラウド天励飛は異なる推論段階に対応した技術展開を継続しています。戦略的に、今後はプリフィル段階に最適化されたチップ製品や、デコード段階の低遅延ニーズに応える推論チップを段階的にリリースし、システムレベルの協調最適化を通じて推論全体の効率をさらに向上させます。特に、長いコンテキスト推論に最適化された最初のプリフィルチップ「DeepVerse100」は、年内にサンプル出荷を完了し、関連計算システムへの展開を計画しています。長期的な技術計画として、「1001計画」を提案しており、これは「百億トークン一銭」を長期目標とし、チップアーキテクチャと計算システムの協調最適化を通じて、大規模モデルの推論コストの継続的な低減を推進します。今後も、AI推論チップに関する技術研究開発を進め、人工知能技術のより広範な産業への普及と実用化を促進していきます。
424 Million! Cloudwalk Achieves Opening Success, Wins Zhanjiang AI Inference Thousand-Card Cluster Project
(出典:云天励飞)
最近、云天励飞は湛江市のAI浸透支援による新たな生産力基盤インフラ整備プロジェクトに落札しました。プロジェクトの計画に基づき、同社は自主開発した国産AI推論高速化カードを用いて、AI推論計算能力クラスターの構築に参加し、DeepSeekなどの国産大規模モデルの適用と展開を推進し、行政や産業のデジタル化アプリケーションに対して計算力基盤を提供します。
大規模モデルの応用に向けた推論計算能力基盤の構築
今回のプロジェクトで構築されるAI推論計算能力クラスターは、大規模モデルの推論タスクのニーズに基づいてシステム設計が行われます。
大規模モデルの推論過程では、異なる計算段階でシステムリソースの要求が異なります。現在、業界では一般的に「プリフィル–デコード分離」の推論アーキテクチャを採用しており、各段階のリソース配分を最適化することで、システム全体の運用効率を向上させています。
このアーキテクチャでは、プリフィル段階は長いコンテキストの理解と計算を主に担当し、計算能力と帯域幅の要求が高いです。一方、デコード段階は継続的にトークンを生成し、システムの遅延に対してより敏感です。プロジェクトの構築過程では、各段階の特性に合わせて計算リソースの配分とシステムの最適化を行います。
また、モデルのコンテキスト長が増加するにつれて、多くの中間状態をKVキャッシュの形で保存する必要があります。この特徴に基づき、システム設計では計算、記憶、ネットワーク間の協調を最適化し、データアクセス効率とシステム全体の性能向上を図ります。
ネットワークアーキテクチャについては、統一された高速インターコネクトアーキテクチャを採用し、400G光ネットワークを通じてクラスターの物理層ネットワークを構築します。これにより、ノード間の高帯域・低遅延通信を実現し、単一ノードの数十GPU規模から千GPU規模のクラスターへの拡張も可能となり、さまざまな規模のAIアプリケーションのニーズに対応します。
プロジェクトの全体構築完了後、大規模モデルの推論タスクに対応した計算能力基盤が形成され、関連アプリケーションシナリオに安定した計算力を提供します。
AI推論チップと計算システム技術の継続的な研究開発
プロジェクトの計画によると、今回のAI推論計算能力クラスターは三期に分けて構築され、クラウド天励飛の自主開発した国産AI推論高速化カードを採用します。
第一期では、クラウド天励飛のX6000推論高速化カードを展開し、将来的には同社の最新世代チップを搭載します。
AI推論チップの研究開発において、クラウド天励飛は異なる推論段階に対応した技術展開を継続しています。戦略的に、今後はプリフィル段階に最適化されたチップ製品や、デコード段階の低遅延ニーズに応える推論チップを段階的にリリースし、システムレベルの協調最適化を通じて推論全体の効率をさらに向上させます。
特に、長いコンテキスト推論に最適化された最初のプリフィルチップ「DeepVerse100」は、年内にサンプル出荷を完了し、関連計算システムへの展開を計画しています。
長期的な技術計画として、「1001計画」を提案しており、これは「百億トークン一銭」を長期目標とし、チップアーキテクチャと計算システムの協調最適化を通じて、大規模モデルの推論コストの継続的な低減を推進します。
今後も、AI推論チップに関する技術研究開発を進め、人工知能技術のより広範な産業への普及と実用化を促進していきます。