KAYTUS 为 AI 数据中心增强了 KSManage 的全栈运营维护可视化

这是一个付费新闻稿。任何咨询请直接联系新闻稿分发方。

KAYTUS 通过全栈级 O&M 可视化增强 KSManage,面向 AI 数据中心

Business Wire

Thu, February 26, 2026 at 5:02 PM GMT+9 7 min read

KSManage 面向下一代 AI 数据中心设计,通过跨组件、服务器和机柜、集群以及 AI 作业的四层可视化,提供全面洞察,并确保 AI 数据中心的高可用性

新加坡,2026 年 2 月 26 日–(BUSINESS WIRE)–随着 AI 数据中心扩展以支持日益复杂的 AI 工作负载,传统 IT 监控已无法提供可靠运维所需的可视性。作为端到端 AI 与液冷解决方案的领先提供商,KAYTUS 已对 KSManage 进行了大幅升级:在组件、服务器和机柜、集群以及 AI 作业之间引入全栈级、四层可视化,以应对由高要求的 AI 数据中心运维场景所产生的复杂故障排查、高组件故障率、错综复杂的应用依赖,以及对运维(O&M)事件响应迟缓等挑战。增强后的平台可实现精确的故障定位、更快的事件响应以及主动式运维。借助 KSManage,KAYTUS 帮助客户最大化可用性、提升运营效率,并确保支撑下一代计算的关键任务级 AI 数据中心运行稳定。

四大关键挑战制约 AI 数据中心的运营效率

大型语言模型(LLM)的快速演进正在加速 AI 数据中心的建设,推动异构 CPU、GPU 和 DPU 架构的广泛采用,并提高跨区域协作的需求。这些趋势显著提升了运维(O&M)的复杂度——即便单次停机也可能导致超过 USD 1 million 的损失,这凸显了在 AI 数据中心运营中可用性与韧性的重要性日益增长。

  1. 基础设施复杂性阻碍故障排查

AI 异构数据中心整合了大量计算、网络、存储以及配套系统。传统监控方法将设备视为相互隔离的实体,缺乏对整个系统端到端的可视性,使得故障追踪与关联变得困难。因此,这些方法难以满足 AI 数据中心严格的运营要求:它们需要快速发现、快速分析和快速恢复。无法迅速识别根因会直接影响恢复时间,并削弱整体系统可用性。

  1. 核心组件故障率上升且预测性预警有限

GPU 和存储设备等核心组件构成 AI 数据中心性能与运营稳定性的基础。高功率密度硬件的快速普及显著加速了组件磨损,从而推高故障率。行业数据显示:GPU 功耗在过去十年增长超过五倍;机柜功率密度已提升至 20–50 kW,并逐步逼近 200 kW。在如此持续的高负载条件下,组件故障风险会急剧增加。然而,传统监控系统缺乏实时健康追踪与预测趋势分析,限制了对早期预警信号的检测能力,也难以主动预防故障。

故事继续  
  1. 复杂的 AI 应用场景缺乏用于监控的端到端业务关联

AI 数据中心支持多种应用场景,包括 AI 生成内容(AIGC)、自动驾驶和科学计算。这些工作负载对计算、网络和存储资源提出高度多样化的要求,使得将底层硬件问题(例如 GPU 内存泄漏或 InfiniBand 分组丢失)与特定 AI 作业关联起来变得困难。行业统计显示,约 8% 的非计划 LLM 训练中断由光模块或光纤故障引起。即使是毫秒级别的分组丢失也可能打断训练、触发作业重启,并迫使进度回滚,导致大量计算资源浪费。传统监控方法缺乏对硬件、工作负载与业务流程之间的全链路可视性,从而难以及时有效地定位并解决此类问题。

  1. 复杂的维护流程导致运维(O&M)响应延迟

跨区域协作需求的不断增长显著增加了 AI 数据中心运维的复杂度。资源调度和网络链路规划等关键任务仍高度依赖人工流程——耗时且易出错。同时,运维人员的配置有限也进一步拉长响应时间,迫使组织在很大程度上采取被动式故障管理策略。缺乏自动化响应机制会延长平均修复时间(MTTR),从而对整体服务可用性与运营效率产生负面影响。

KSManage 通过全栈级四层智能可视化应对四大关键挑战

为应对 AI 数据中心的运维(O&M)挑战,KSManage 引入一套新建立的四层智能监控框架,覆盖从组件到系统的全范围。借助全球级端到端可视化,该方案实现自动化故障检测、提前预警与智能处置——显著提升 O&M 效率,并确保 AI 数据中心的高可用性。

  1. 具备实时疑难排查与 3D 可视化的全相关可视性

为解决由异构基础设施与高度交织关系所驱动的大规模 AI 数据中心在故障排查方面的复杂性,KAYTUS KSManage 提供统一的可视化智能,实现全相关可视性。该平台持续采集实时核心指标,包括 GPU 与 CPU 利用率、视频内存使用、功耗、网络带宽与存储健康状况,同时并行汇总运维事件与网络日志。借助自动化拓扑发现,KSManage 追踪端到端的跨节点工作负载,构建集成的“测量–日志–追踪”数据基础。通过将设备健康数据精确到端口级遥测,并贯穿整个作业生命周期,KSManage 能够通过实时三维建模动态可视化资源分配。此种端到端方式克服了传统“烟囱式”监控的局限,使得能够进行精确的全量关联分析,并将根因诊断从耗时排查转变为快速、准确的故障定位,使故障排查效率最高提升 90%。

  1. 面向核心组件可靠性的硬件预测趋势分析与早期预警。

为应对缺乏主动式早期预警、故障率上升以及高功率密度设备的广泛采用所带来的组件磨损加速,KAYTUS KSManage 建立了一套智能硬件健康管理与早期预警系统。借助全面的硬件遥测数据,KSManage 采用先进算法对包括 GPU 和存储设备在内的关键组件性能趋势进行深入分析。能够准确识别异常磨损的早期信号,从而将硬件故障风险可提前七天预测出来。同时,KSManage 持续监控负载与温度等关键运行参数,在持续高负载条件下主动缓解潜在故障,并从源头降低组件故障率。

  1. 将应用依赖端到端关联至网络监控与工作流。

为应对多样化 AI 应用场景、复杂业务工作流以及将硬件异常与 AI 训练任务关联起来的难题,KAYTUS KSManage 在硬件、平台与工作负载之间提供全相关可视性。该方案可精准监控关键网络指标,包括带宽、延迟与分组丢失,同时预留 20% 带宽余量以确保数据传输稳定,维持毫秒级的内部延迟并将分组丢失率控制在 0.01% 以下。这使得能够将硬件异常准确映射至特定训练作业。通过追踪网络异常从网络到工作负载再到业务影响的完整路径,KSManage 能够快速锁定 LLM 训练中断的根因,例如光模块或光纤故障;从而避免训练回滚、消除浪费的计算资源,并提供传统监控工具所无法达到的端到端可视化能力。

  1. 具备精准疑难排查与快速响应的四层自动化运维(O&M)

为应对对人工操作的过度依赖、专门的运维人员短缺以及事件响应延迟,KAYTUS KSManage 提供一个具备韧性的、智能化的运维系统,该系统基于跨组件、服务器和机柜、集群以及 AI 工作负载的四层可视化框架构建。该统一架构能够在整个 AI 数据中心范围内实现端到端的自动化运维与精准故障诊断。自动备份成功率达到将近 99.8%,同时结合知识图谱与时间序列异常检测算法,使得多达 90% 的根因可在五分钟内自动识别。结果是,运维效率最高提升至四倍,显著降低平均修复时间(MTTR),并最大限度减少对人工干预和人为错误的依赖。与此同时,KSManage 还建立了一套韧性响应机制,包括早期预警、分级保护,以及自动隔离与处置。存储容量风险可提前三天预测,从而降低整体运维成本,并实现总拥有成本(TCO)最高 40% 的降幅。

体验 KSManage

KSManage 现提供试用版,用户只需点击几次即可启动,从而让用户能够快速、充分探索产品能力。开始试用,请访问: (用户名:admin/密码:Manage1!)

如有任何疑问或需要更多信息,请联系:ksmanage@kaytus.com

我们的团队将及时回复!

关于 KAYTUS

KAYTUS 是端到端 AI 与液冷解决方案的领先提供商,为云、AI、边缘计算以及其他新兴应用提供多样化的创新、开放且环保的产品。秉持以客户为中心的方法,KAYTUS 通过灵活的商业模式对用户需求保持敏捷与响应。更多信息请访问 KAYTUS.com,并在 LinkedIn 和 X 上关注我们

在 businesswire.com 上查看源版本:

联系方式

**媒体联系人 **
media@kaytus.com

条款 及 隐私政策

隐私仪表盘

更多信息

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论