KAYTUSは、AIデータセンター向けのフルスタックO&M可視化を備えたKSManageを強化

これは有料のプレスリリースです。お問い合わせは、プレスリリース配信業者に直接ご連絡ください。

KAYTUSは、AIデータセンター向けにフルスタックのO&M可視性を備えたKSManageを強化

Business Wire

Thu, February 26, 2026 at 5:02 PM GMT+9 7 min read

KSManageは次世代AIデータセンター向けに設計されており、コンポーネント、サーバーとキャビネット、クラスター、AIジョブにわたる4階層の可視性を備えることで、AIデータセンターの高可用性を保証します

SINGAPORE, February 26, 2026–(BUSINESS WIRE)–AIデータセンターが、ますます複雑化するAIワークロードを支えるために規模を拡大するにつれて、従来のIT監視では信頼性の高い運用に必要な可視性を提供できなくなっています。エンドツーエンドのAIおよび液冷ソリューションのリーディングプロバイダーであるKAYTUSは、KSManageを大幅にアップグレードし、コンポーネント、サーバーとキャビネット、クラスター、AIジョブにわたるフルスタックかつ4階層の可視性を導入しました。これにより、要求の厳しいAIデータセンター運用によって生成される、複雑なトラブルシューティング、コンポーネント故障率の上昇、複雑なアプリケーション依存、運用・保守(O&M)インシデントへの対応遅延といった課題に対処します。強化されたこのプラットフォームにより、正確な障害箇所の特定、より迅速なインシデント対応、そして積極的な運用が可能になります。KSManageによりKAYTUSは、お客様が可用性を最大化し、運用効率を向上させ、次世代コンピューティングを支えるミッションクリティカルなAIデータセンターの安定性を確保できるよう支援します。

4つの主要課題がAIデータセンターの運用効率を制約

大規模言語モデル(LLM)の急速な進化はAIデータセンターの開発を加速させ、異種CPU、GPU、DPUアーキテクチャの広範な採用を促し、リージョン間の連携ニーズを高めています。これらのトレンドは、運用・保守(O&M)の複雑性を大幅に引き上げており、単一の停止でUSD 1 millionを超える損失につながり得ることから、AIデータセンター運用における可用性とレジリエンスの重要性が高まっていることを示しています。

  1. インフラの複雑さがトラブルシューティングを妨げる

AIの異種データセンターは、多種多様な計算、ネットワーキング、ストレージ、そして関連するシステムを統合しています。従来の監視アプローチはデバイスを孤立した存在として扱うため、システム全体にわたるエンドツーエンドの可視性が欠けており、障害追跡や相関付けが困難になります。その結果、これらの方法は、迅速な検知、迅速な分析、迅速な復旧を求めるAIデータセンターの厳格な運用要件を満たせません。根本原因を素早く特定できないことは、復旧時間に直接影響し、システム全体の可用性を損ないます。

  1. コアコンポーネントの故障率の上昇と限定的な予兆の警告

GPUやストレージデバイスのようなコアコンポーネントは、AIデータセンターの性能と運用の安定性の基盤を成します。高パワー密度のハードウェアの急速な採用は、コンポーネントの摩耗を大幅に加速させ、故障率の上昇につながっています。業界データによると、GPUの消費電力は過去10年で5倍以上に増加している一方で、キャビネットの電力密度は20~50 kWとなり、徐々に200 kWへ近づいています。このように高負荷状態が継続する状況では、コンポーネント故障のリスクが急激に高まります。しかし、従来の監視システムには、リアルタイムの健全性追跡や予測トレンド分析がなく、早期の警告サインを検知し、故障を事前に防ぐ能力が制限されています。

Story continues  
  1. 複雑なAIアプリケーションのシナリオでは、監視のためのエンドツーエンドの業務相関が欠ける

AIデータセンターは、AI生成コンテンツ(AIGC)、自動運転、科学計算など、幅広いアプリケーションシナリオを支えています。これらのワークロードは、計算、ネットワーク、ストレージ資源に対して非常に多様な要求を課し、そのため、GPUメモリリークやInfiniBandのパケットロスのような根本のハードウェア問題を、特定のAIジョブと相関付けることが難しくなります。業界統計では、計画外のLLMトレーニング中断の約8%が、光モジュールまたはファイバーの故障によって引き起こされています。ミリ秒レベルのパケットロスでさえ、トレーニングを中断させ、ジョブの再起動を引き起こし、進捗のロールバックを強制する可能性があり、その結果、計算資源の大きな無駄につながります。従来の監視アプローチでは、ハードウェア、ワークロード、業務プロセスにまたがるフルリンクの可視性が欠けているため、こうした問題を効率的に特定し解決する能力が制限されます。

  1. 複雑な保守プロセスがO&M対応の遅延を招く

リージョン間の連携ニーズの高まりは、AIデータセンターの運用・保守の複雑性を大幅に押し上げています。リソーススケジューリングやネットワークリンク設計のような重要なタスクは、依然として手作業のプロセスに大きく依存しており、時間がかかるだけでなく、エラーが起こりやすいのが現状です。同時に、運用要員の不足はさらに対応時間を遅らせ、組織を主にリアクティブ(後追い)な障害管理アプローチへと追い込みます。自動化された対応メカニズムがないことで、平均修復時間(MTTR)が延び、サービスの可用性と運用効率の両方に悪影響を及ぼします。

KSManageはフルスタックの4階層インテリジェント可視性で4つの主要課題に対応

AIデータセンターの運用・保守(O&M)の課題に対処するために、KSManageはコンポーネントからシステムまでをカバーする新たに構築された4層のインテリジェント監視フレームワークを導入します。グローバルでエンドツーエンドの可視性を活用することで、このソリューションは自動化された障害検知、早期警告、インテリジェントな是正を可能にし、O&M効率を大幅に高め、AIデータセンターの高可用性を確保します。

  1. リアルタイムトラブルシューティングと3D可視化によるフル相関可視性

異種インフラによって駆動され、密に絡み合った関係性に支えられる大規模AIデータセンターでのトラブルシューティングの複雑さに対処するために、KAYTUSのKSManageは、統一された視覚インテリジェンスによりフル相関の可視性を提供します。このプラットフォームは、GPUとCPUの利用率、ビデオメモリ使用量、消費電力、ネットワーク帯域、ストレージ健全性などのリアルタイムのコアメトリクスを継続的に収集すると同時に、運用イベントとネットワークログを並行して集約します。自動化されたトポロジー発見を活用することで、KSManageはエンドツーエンドのクロスノード・ワークロードを追跡し、「測定–ログ–トレース」という統合データ基盤を構築します。ジョブのライフサイクル全体にわたって、デバイスの健全性からポートレベルのテレメトリまでを相関付けることで、KSManageはリアルタイムの3Dモデリングを通じてリソース割り当てを動的に可視化します。このエンドツーエンドのアプローチにより、従来のサイロ型監視の限界を克服でき、正確なフル相関分析が可能になると同時に、根本原因の診断を時間のかかる調査から迅速かつ正確な障害箇所の特定へと変え、トラブルシューティング効率を最大90%向上させます。

  1. コアコンポーネントの信頼性に向けた早期警告を伴う予測型ハードウェアトレンド分析

先回りの早期警告の不足、故障率の上昇、そして高パワー密度デバイスの広範な採用によって引き起こされるコンポーネント摩耗の加速に対処するために、KAYTUS KSManageは、インテリジェントなハードウェア健全性管理および早期警告システムを確立します。包括的なハードウェアテレメトリを活用し、KSManageはGPUやストレージデバイスなどの重要コンポーネントの性能トレンドを深く分析するための高度なアルゴリズムを適用します。異常摩耗の早期兆候は正確に特定され、ハードウェア故障のリスクを最大7日前までに予測できるようになります。並行してKSManageは、負荷や温度などの主要な運用パラメータを継続的に監視し、持続的な高負荷条件下での潜在的な故障を事前に抑え、故障率を元の段階で低減します。

  1. ネットワーク監視とワークフローで相関付けられるエンドツーエンドのアプリケーション依存関係

多様なAIアプリケーションシナリオ、複雑な業務ワークフロー、そしてハードウェア異常をAIトレーニング作業と相関付けることが難しいという課題に対処するために、KAYTUS KSManageは、ハードウェア、プラットフォーム、ワークロードにわたってフル相関の可視性を提供します。このソリューションは、帯域、レイテンシ、パケットロスを含む重要なネットワーク指標を正確に監視し、安定したデータ伝送のために帯域の20%の余裕を確保します。ミリ秒レベルの内部レイテンシを維持し、パケットロスを0.01%未満に抑えます。これにより、ハードウェア異常を特定のトレーニングジョブへ正確にマッピングできます。ネットワーク異常からワークロード、さらに業務への影響までの完全な経路を追跡することで、KSManageは光モジュールやファイバーの故障など、LLMトレーニング中断の根本原因を迅速に特定し、トレーニングのロールバックを防ぎ、無駄な計算資源を排除し、従来の監視ツールの能力を超えたエンドツーエンドの可視性を提供します。

  1. 正確なトラブルシューティングと迅速な対応を備えた4階層の自動O&M

手作業への過度な依存、専門のO&M人材不足、インシデント対応の遅れに対処するために、KAYTUS KSManageは、コンポーネント、サーバーとキャビネット、クラスター、AIワークロードにまたがる4層の可視性フレームワークに基づいて構築されたレジリエントでインテリジェントなO&Mシステムを提供します。この統一されたアーキテクチャにより、AIデータセンター全体にわたるエンドツーエンドの自動運用と、正確な障害診断が可能になります。自動バックアップの成功率は約99.8%に達し、さらにナレッジグラフと時系列異常検知アルゴリズムを組み合わせることで、根本原因の最大90%を5分以内に自動で特定できるようにします。その結果、O&M効率は最大4倍に向上し、平均修復時間(MTTR)を大幅に短縮し、手作業の介入や人為的エラーへの依存を最小化します。並行して、KSManageは、早期警告、ティア(段階)別の保護、そして自動化された隔離と是正を特徴とするレジリエントな応答メカニズムを確立します。ストレージ容量のリスクは最大3日前までに予測でき、O&Mコスト全体を削減し、総所有コスト(TCO)を最大40%削減します。

KSManageを体験

KSManageは、数回のクリックで開始できるトライアルとして提供されており、ユーザーは製品の機能をすばやくかつ完全に探索できます。トライアルを開始するには、こちらをご覧ください: (username: admin/password: Manage1!)

ご質問や追加情報については、ksmanage@kaytus.com までご連絡ください

当社チームが迅速に対応します!

KAYTUSについて

KAYTUSは、エンドツーエンドのAIおよび液冷ソリューションのリーディングプロバイダーであり、クラウド、AI、エッジコンピューティング、その他の新興アプリケーション向けに、革新的でオープンかつエコフレンドリーな幅広い製品群を提供しています。顧客中心のアプローチにより、KAYTUSは適応可能なビジネスモデルを通じて、ユーザーのニーズに俊敏かつ迅速に対応します。詳細はKAYTUS.comをご覧になり、LinkedInおよびXをフォローしてください

businesswire.comでソースバージョンを表示:

お問い合わせ

**メディアお問い合わせ **
media@kaytus.com

利用規約 および プライバシーポリシー

プライバシーダッシュボード

詳細情報

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン