KAYTUS améliore KSManage avec une visibilité complète de la gestion opérationnelle pour les centres de données IA

2026-04-01 08:52:35

Ceci est un communiqué de presse payant. Contactez directement le distributeur du communiqué de presse pour toute demande.

KAYTUS améliore KSManage avec une visibilité O&M full-stack sur toute la pile pour les centres de données IA

Business Wire

Jeu, 26 février 2026 à 17:02 GMT+9 7 min de lecture

KSManage est conçu pour le prochain centre de données IA de nouvelle génération, avec une visibilité à quatre niveaux sur les composants, les serveurs et les armoires, les clusters et les jobs IA, et garantit la haute disponibilité des centres de données IA

SINGAPOUR, 26 février 2026–(BUSINESS WIRE)–Alors que les centres de données IA évoluent pour prendre en charge des charges de travail IA de plus en plus complexes, la surveillance informatique traditionnelle ne peut plus fournir la visibilité nécessaire à des opérations fiables. KAYTUS, fournisseur de solutions IA et de refroidissement liquide de bout en bout, a considérablement amélioré KSManage, en introduisant une visibilité full-stack à quatre niveaux sur les composants, les serveurs et les armoires, les clusters et les jobs IA, afin de relever les défis liés aux opérations de dépannage complexes, aux taux de défaillance plus élevés des composants, aux dépendances applicatives complexes et aux réponses retardées aux incidents de maintenance et d’exploitation (O&M) générés par des opérations exigeantes de centres de données IA. La plateforme améliorée permet une localisation précise des pannes, une réponse plus rapide aux incidents et des opérations proactives. Avec KSManage, KAYTUS aide ses clients à maximiser la disponibilité, à améliorer l’efficacité opérationnelle et à garantir la stabilité des centres de données IA essentiels au bon fonctionnement, qui alimentent le calcul de la prochaine génération.

Quatre défis clés limitent l’efficacité opérationnelle des centres de données IA

L’évolution rapide des grands modèles de langage (LLM) accélère le développement des centres de données IA, entraînant une adoption généralisée d’architectures hétérogènes CPU, GPU et DPU et accroissant le besoin de collaboration entre régions. Ces tendances augmentent considérablement la complexité des opérations et de la maintenance (O&M), où même une seule panne peut entraîner des pertes dépassant USD 1 million, soulignant l’importance croissante de la disponibilité et de la résilience dans les opérations des centres de données IA.

La complexité de l’infrastructure entrave le dépannage..

Les centres de données IA hétérogènes intègrent une large gamme de systèmes de calcul, de mise en réseau, de stockage et de systèmes de support. Les approches de surveillance traditionnelles traitent les appareils comme des entités isolées et ne disposent pas d’une visibilité de bout en bout sur l’ensemble du système, ce qui rend le suivi et la corrélation des pannes difficiles. Par conséquent, ces méthodes ne répondent pas aux exigences opérationnelles strictes des centres de données IA, qui exigent une détection rapide, une analyse rapide et une récupération rapide. L’incapacité à identifier rapidement les causes profondes impacte directement le temps de récupération et compromet la disponibilité globale du système.

Hausse des taux de défaillance des composants essentiels et avertissements prédictifs limités.

Les composants essentiels tels que les GPU et les dispositifs de stockage constituent la base des performances et de la stabilité opérationnelle des centres de données IA. L’adoption rapide de matériel à forte densité de puissance a considérablement accéléré l’usure des composants, entraînant des taux de défaillance plus élevés. Les données du secteur indiquent que la consommation d’énergie des GPU a augmenté de plus de cinq fois au cours de la dernière décennie, tandis que la densité de puissance des armoires est passée à 20–50 kW, s’approchant progressivement de 200 kW. Dans des conditions de charge élevée et soutenue, le risque de défaillance des composants augmente fortement. Cependant, les systèmes de surveillance traditionnels ne disposent pas de suivi en temps réel de l’état de santé ni d’analyse prédictive des tendances, limitant la capacité à détecter les signes avant-coureurs et à prévenir proactivement les pannes.

Story continues

Les scénarios d’applications IA complexes manquent de corrélation métier de bout en bout pour la surveillance..

Les centres de données IA prennent en charge une large gamme de scénarios d’applications, notamment le contenu généré par IA (AIGC), la conduite autonome et le calcul scientifique. Ces charges de travail imposent des exigences très diverses en matière de ressources de calcul, de réseau et de stockage, ce qui rend difficile la corrélation des problèmes matériels sous-jacents, tels que des fuites de mémoire GPU ou des pertes de paquets InfiniBand, avec des jobs IA spécifiques. Les statistiques du secteur montrent qu’environ 8% des interruptions non planifiées de l’entraînement de LLM sont causées par des pannes de module optique ou de fibre. Même une perte de paquets au niveau de la milliseconde peut perturber l’entraînement, déclencher des redémarrages de jobs et forcer des retours en arrière de la progression, entraînant un gaspillage important des ressources de calcul. Les approches de surveillance traditionnelles ne disposent pas de visibilité sur toute la chaîne entre le matériel, les charges de travail et les processus métier, ce qui limite leur capacité à identifier et résoudre efficacement de tels problèmes.

Des processus de maintenance compliqués entraînent des réponses O&M retardées.

Le besoin croissant de collaboration entre régions a considérablement accru la complexité des opérations et de la maintenance des centres de données IA. Des tâches critiques telles que la planification des ressources et la conception des liaisons réseau reposent encore largement sur des processus manuels, qui sont chronophages et sujets aux erreurs. Dans le même temps, les effectifs opérationnels limités ralentissent davantage les délais de réponse, forçant les organisations à adopter une approche largement réactive de la gestion des pannes. L’absence de mécanismes de réponse automatisés entraîne un temps moyen de réparation (MTTR) prolongé, ce qui impacte négativement la disponibilité globale du service et l’efficacité opérationnelle.

KSManage relève les quatre défis clés grâce à une visibilité intelligente full-stack à quatre niveaux

Pour relever les défis d’exploitation et de maintenance (O&M) des centres de données IA, KSManage introduit un nouveau cadre de surveillance intelligent en quatre couches, couvrant des composants jusqu’aux systèmes. En s’appuyant sur une visibilité mondiale de bout en bout, la solution permet la détection automatisée des pannes, des alertes précoces et une remédiation intelligente—améliorant significativement l’efficacité O&M et garantissant la haute disponibilité des centres de données IA.

Visibilité entièrement corrélée avec dépannage en temps réel et visualisation 3D

Pour répondre à la complexité du dépannage dans les grands centres de données IA induite par une infrastructure hétérogène et des relations densément interconnectées, KAYTUS KSManage fournit une visibilité entièrement corrélée avec une intelligence visuelle unifiée. La plateforme collecte en continu des indicateurs temps réel essentiels, notamment l’utilisation des GPU et des CPU, l’utilisation de la mémoire vidéo, la consommation électrique, la bande passante réseau et l’état du stockage, tout en agrégeant simultanément les événements opérationnels et les journaux réseau. Grâce à la découverte automatisée de topologie, KSManage suit les charges de travail de bout en bout entre nœuds, en construisant une base de données intégrée « mesure–journal–trace ». En corrélant l’état de santé des dispositifs jusqu’au niveau des ports, à travers tout le cycle de vie du job, KSManage visualise dynamiquement l’allocation des ressources via une modélisation 3D en temps réel. Cette approche de bout en bout surmonte les limites de la surveillance cloisonnée traditionnelle, permettant une analyse de corrélation précise et transformant le diagnostic des causes profondes, qui demandait auparavant une enquête fastidieuse, en une localisation de panne rapide et exacte, tout en améliorant l’efficacité du dépannage jusqu’à 90%.

Analyse prédictive des tendances matérielles avec alerte précoce pour la fiabilité des composants essentiels.

Pour remédier au manque d’alerte précoce proactive, à l’augmentation des taux de défaillance et à l’usure accélérée des composants causée par l’adoption généralisée de dispositifs à forte densité de puissance, KAYTUS KSManage met en place un système intelligent de gestion de l’état du matériel et d’alerte précoce. En s’appuyant sur une télémétrie matérielle complète, KSManage applique des algorithmes avancés pour analyser en profondeur les tendances de performance des composants critiques, notamment les GPU et les dispositifs de stockage. Les indicateurs précoces d’usure anormale sont identifiés avec précision, permettant de prédire les risques de défaillance du matériel jusqu’à sept jours à l’avance. En parallèle, KSManage surveille en continu des paramètres opérationnels clés tels que la charge et la température, atténuant proactivement les défaillances potentielles dans des conditions de charge élevée soutenue et réduisant les taux de défaillance des composants à la source.

Corrélations de dépendances applicatives de bout en bout, corrélées avec la surveillance réseau et les workflows.

Pour relever les défis posés par des scénarios d’applications IA variés, des workflows métier complexes et la difficulté de corréler les anomalies matérielles avec les tâches d’entraînement IA, KAYTUS KSManage fournit une visibilité entièrement corrélée à travers le matériel, les plateformes et les charges de travail. La solution surveille précisément des métriques réseau critiques, notamment la bande passante, la latence et la perte de paquets, tout en réservant une marge de bande passante de 20% pour garantir une transmission stable des données, maintenant une latence interne au niveau de la milliseconde et une perte de paquets inférieure à 0.01%. Cela permet de cartographier avec précision les anomalies matérielles vers des jobs d’entraînement spécifiques. En retraçant l’intégralité du chemin, des anomalies réseau à travers les charges de travail jusqu’à l’impact métier, KSManage identifie rapidement les causes profondes des interruptions de l’entraînement des LLM, telles que les pannes de module optique ou de fibre, en évitant les retours en arrière de l’entraînement, en supprimant le gaspillage de ressources de calcul et en offrant une visibilité de bout en bout au-delà des capacités des outils de surveillance traditionnels.

O&M automatisés à quatre niveaux avec dépannage précis et réponse rapide

Pour faire face à la dépendance excessive aux opérations manuelles, au manque de personnel spécialisé en O&M et aux réponses d’incidents retardées, KAYTUS KSManage fournit un système O&M résilient et intelligent, construit sur un cadre de visibilité en quatre couches couvrant les composants, les serveurs et les armoires, les clusters et les charges de travail IA. Cette architecture unifiée permet des opérations automatisées de bout en bout et un diagnostic précis des pannes sur l’ensemble du centre de données IA. Les taux de réussite des sauvegardes automatisées atteignent près de 99.8%, tandis que l’application combinée de graphes de connaissance et d’algorithmes de détection d’anomalies sur séries temporelles permet d’identifier automatiquement jusqu’à 90% des causes profondes en cinq minutes. En conséquence, l’efficacité O&M augmente jusqu’à quatre fois, réduisant significativement le temps moyen de réparation (MTTR) et minimisant la dépendance à l’intervention manuelle et aux erreurs humaines. En parallèle, KSManage met en place un mécanisme de réponse résilient incluant une alerte précoce, une protection par paliers, et une isolation et remédiation automatisées. Les risques de capacité de stockage peuvent être prédits jusqu’à trois jours à l’avance, réduisant les coûts O&M globaux et offrant jusqu’à une réduction de 40% du coût total de possession (TCO).

Découvrez KSManage

KSManage est désormais proposé en essai, qui peut être lancé en seulement quelques clics, permettant aux utilisateurs d’explorer rapidement et pleinement les capacités du produit. Pour démarrer votre essai, veuillez visiter : (username: admin/password: Manage1!)

Pour toute question ou information supplémentaire, veuillez nous contacter à ksmanage@kaytus.com

Notre équipe répondra rapidement !

À propos de KAYTUS

KAYTUS est un fournisseur de solutions IA et de refroidissement liquide de bout en bout de premier plan, proposant une gamme variée de produits innovants, ouverts et respectueux de l’environnement pour le cloud, l’IA, l’informatique de pointe (edge) et d’autres applications émergentes. Grâce à une approche centrée sur le client, KAYTUS est agile et réactif aux besoins des utilisateurs via son modèle économique adaptable. Découvrez-en davantage sur KAYTUS.com et suivez-nous sur LinkedIn et X

Voir la version source sur businesswire.com :

Contacts

**Contacts médias **
media@kaytus.com

Conditions et politique de confidentialité

Tableau de bord de confidentialité

More Info

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.