KAYTUS mejora KSManage con visibilidad de O&M de pila completa para centros de datos de IA

Este es un comunicado de prensa pagado. Póngase en contacto directamente con el distribuidor del comunicado de prensa para cualquier consulta.

KAYTUS Mejora KSManage con Visibilidad Total de O&M Full-Stack para Centros de Datos de IA

Business Wire

Thu, February 26, 2026 at 5:02 PM GMT+9 7 min read

KSManage está diseñado para el centro de datos de IA de próxima generación, con visibilidad de cuatro niveles a través de componentes, servidores y armarios, clústeres y trabajos de IA, y garantiza la alta disponibilidad de los centros de datos de IA

SINGAPUR, 26 de febrero de 2026–(BUSINESS WIRE)–A medida que los centros de datos de IA se escalan para dar soporte a cargas de trabajo de IA cada vez más complejas, la monitorización de TI tradicional ya no puede proporcionar la visibilidad necesaria para operaciones fiables. KAYTUS, un proveedor líder de soluciones integrales de IA y refrigeración líquida, ha mejorado significativamente KSManage, incorporando visibilidad completa full-stack y de cuatro niveles en componentes, servidores y armarios, clústeres y trabajos de IA, para abordar los desafíos de una depuración compleja, mayores tasas de fallo de componentes, dependencias intrincadas de aplicaciones y respuestas demoradas a incidentes de operaciones y mantenimiento (O&M) generados por operaciones exigentes de centro de datos de IA. La plataforma mejorada permite una localización precisa de fallas, una respuesta de incidentes más rápida y operaciones proactivas. Con KSManage, KAYTUS ayuda a los clientes a maximizar la disponibilidad, mejorar la eficiencia operativa y asegurar la estabilidad de los centros de datos de IA de misión crítica que impulsan la computación de próxima generación.

Cuatro desafíos clave que limitan la eficiencia operativa de los centros de datos de IA

La rápida evolución de los modelos de lenguaje grandes (LLMs) está acelerando el desarrollo de centros de datos de IA, impulsando la adopción generalizada de arquitecturas heterogéneas de CPU, GPU y DPU y aumentando la necesidad de colaboración entre regiones. Estas tendencias están elevando significativamente la complejidad de las operaciones y el mantenimiento (O&M), donde incluso una sola caída puede resultar en pérdidas que superan USD 1 millón, subrayando la importancia creciente de la disponibilidad y la resiliencia en las operaciones de los centros de datos de IA.

  1. La complejidad de la infraestructura dificulta la resolución de problemas.

Los centros de datos heterogéneos de IA integran una amplia gama de sistemas de computación, redes, almacenamiento y sistemas de soporte. Los enfoques tradicionales de monitorización tratan los dispositivos como entidades aisladas y carecen de visibilidad de extremo a extremo en todo el sistema, lo que dificulta el seguimiento y la correlación de fallas. Como resultado, estos métodos no alcanzan los requisitos operativos estrictos de los centros de datos de IA, que exigen detección rápida, análisis rápido y recuperación rápida. La incapacidad de identificar rápidamente las causas raíz afecta directamente el tiempo de recuperación y socava la disponibilidad general del sistema.

  1. Aumentan las tasas de fallos de componentes principales y existe poca alerta predictiva.

Los componentes principales como las GPU y los dispositivos de almacenamiento forman la base del rendimiento del centro de datos de IA y la estabilidad operativa. La adopción rápida de hardware de alta densidad de potencia ha acelerado significativamente el desgaste de los componentes, impulsando tasas de fallo más altas. Los datos de la industria indican que el consumo de energía de las GPU ha aumentado más de cinco veces en la última década, mientras que la densidad de potencia de los armarios ha subido a 20–50 kW y se aproxima gradualmente a 200 kW. Bajo condiciones sostenidas de alta carga, el riesgo de fallo de componentes aumenta bruscamente. Sin embargo, los sistemas de monitorización tradicionales carecen de seguimiento de salud en tiempo real y de análisis predictivo de tendencias, lo que limita la capacidad de detectar señales de alerta temprana y prevenir fallos de manera proactiva.

Story continues  
  1. Los complejos escenarios de aplicaciones de IA carecen de correlación empresarial de extremo a extremo para la monitorización.

Los centros de datos de IA admiten una amplia gama de escenarios de aplicaciones, incluyendo contenido generado por IA (AIGC), conducción autónoma y computación científica. Estas cargas imponen requisitos altamente diversos sobre recursos de cómputo, red y almacenamiento, lo que dificulta correlacionar problemas subyacentes de hardware, como fugas de memoria de GPU o pérdida de paquetes InfiniBand, con trabajos de IA específicos. Las estadísticas de la industria muestran que aproximadamente el 8% de las interrupciones no planificadas del entrenamiento de LLM son causadas por fallos de módulos ópticos o fibras. Incluso una pérdida de paquetes a nivel de milisegundos puede interrumpir el entrenamiento, provocar reinicios de trabajos y forzar retrocesos del progreso, lo que genera un desperdicio significativo de recursos de cómputo. Los enfoques tradicionales de monitorización carecen de visibilidad de enlace completo en hardware, cargas de trabajo y procesos empresariales, limitando su capacidad para identificar y resolver eficientemente este tipo de problemas.

  1. Los procesos de mantenimiento complicados provocan respuestas de O&M tardías.

La creciente necesidad de colaboración entre regiones ha aumentado significativamente la complejidad de las operaciones y el mantenimiento de los centros de datos de IA. Tareas críticas como la programación de recursos y la planificación de enlaces de red todavía dependen en gran medida de procesos manuales, que consumen tiempo y son propensos a errores. Al mismo tiempo, la disponibilidad limitada de personal operativo ralentiza aún más los tiempos de respuesta, obligando a las organizaciones a adoptar un enfoque en gran medida reactivo para la gestión de fallas. La falta de mecanismos automatizados de respuesta da como resultado un tiempo medio de reparación (MTTR) prolongado, impactando negativamente la disponibilidad general del servicio y la eficiencia operativa.

KSManage aborda los cuatro desafíos clave mediante una visibilidad inteligente full-stack de cuatro niveles

Para abordar los desafíos de operaciones y mantenimiento (O&M) de los centros de datos de IA, KSManage introduce un nuevo marco de monitorización inteligente de cuatro capas, que abarca desde componentes hasta sistemas. Al aprovechar la visibilidad global de extremo a extremo, la solución permite la detección automatizada de fallas, alertas tempranas y remediación inteligente—mejorando significativamente la eficiencia de O&M y asegurando la alta disponibilidad de los centros de datos de IA.

  1. Visibilidad correlacionada completa con resolución de problemas en tiempo real y visualización 3D

Para abordar la complejidad de la resolución de problemas en centros de datos de IA a gran escala impulsados por infraestructura heterogénea y relaciones densamente entrelazadas, KAYTUS KSManage ofrece una visibilidad totalmente correlacionada con inteligencia visual unificada. La plataforma recopila continuamente métricas centrales en tiempo real, incluyendo la utilización de GPU y CPU, el uso de memoria de video, el consumo de energía, el ancho de banda de red y la salud del almacenamiento, mientras agrega simultáneamente eventos operativos y registros de red. Al aprovechar el descubrimiento automatizado de topología, KSManage rastrea cargas de trabajo de extremo a extremo entre nodos, construyendo una base de datos integrada de “medición–registro–traza”. Al correlacionar la salud de los dispositivos hasta el nivel de telemetría de puertos en todo el ciclo de vida del trabajo, KSManage visualiza dinámicamente la asignación de recursos mediante modelado 3D en tiempo real. Este enfoque de extremo a extremo supera las limitaciones de la monitorización tradicional aislada en silos, permitiendo un análisis de correlación preciso y transformando el diagnóstico de causa raíz de una investigación que consume tiempo a una localización de fallas rápida y precisa, mejorando la eficiencia de resolución de problemas hasta en un 90%.

  1. Análisis predictivo de tendencias de hardware con alerta temprana para la confiabilidad de componentes principales.

Para abordar la falta de alertas tempranas proactivas, el aumento de las tasas de fallo y el desgaste acelerado de componentes impulsado por la adopción generalizada de dispositivos de alta densidad de potencia, KAYTUS KSManage establece un sistema inteligente de gestión de salud del hardware y de alerta temprana. Al aprovechar la telemetría integral del hardware, KSManage aplica algoritmos avanzados para analizar profundamente las tendencias de rendimiento de componentes críticos, incluidas GPU y dispositivos de almacenamiento. Los indicadores tempranos de un desgaste anómalo se identifican con precisión, lo que permite predecir riesgos de fallos del hardware hasta con siete días de antelación. En paralelo, KSManage supervisa continuamente parámetros operativos clave como carga y temperatura, mitigando de forma proactiva fallos potenciales bajo condiciones sostenidas de alta carga y reduciendo las tasas de fallo de componentes desde la fuente.

  1. Correlación de dependencias de aplicaciones de extremo a extremo con monitorización de red y flujos de trabajo.

Para abordar los desafíos planteados por diversos escenarios de aplicaciones de IA, flujos de trabajo empresariales complejos y la dificultad de correlacionar anomalías de hardware con tareas de entrenamiento de IA, KAYTUS KSManage ofrece visibilidad correlacionada completa a través de hardware, plataformas y cargas de trabajo. La solución supervisa con precisión métricas de red críticas, incluyendo ancho de banda, latencia y pérdida de paquetes, mientras reserva un margen del 20% de ancho de banda para garantizar una transmisión de datos estable, manteniendo una latencia interna a nivel de milisegundos y una pérdida de paquetes por debajo del 0.01%. Esto permite asignar con precisión anomalías de hardware a trabajos de entrenamiento específicos. Al rastrear el camino completo desde anomalías de red a través de las cargas de trabajo hasta el impacto empresarial, KSManage identifica rápidamente las causas raíz de las interrupciones del entrenamiento de LLM, como fallos de módulos ópticos o de fibra, evitando retrocesos del entrenamiento, eliminando el desperdicio de recursos de cómputo y ofreciendo visibilidad de extremo a extremo más allá de las capacidades de las herramientas de monitorización tradicionales.

  1. O&M automatizado de cuatro niveles con resolución de problemas precisa y respuesta rápida

Para abordar la dependencia excesiva de operaciones manuales, la escasez de personal especializado en O&M y la respuesta tardía a incidentes, KAYTUS KSManage ofrece un sistema de O&M resiliente e inteligente construido sobre un marco de visibilidad de cuatro capas que abarca componentes, servidores y armarios, clústeres y cargas de trabajo de IA. Esta arquitectura unificada permite operaciones automatizadas de extremo a extremo y un diagnóstico de fallas preciso en todo el centro de datos de IA. Las tasas de éxito de respaldo automatizado alcanzan casi el 99.8%, mientras que la aplicación combinada de grafos de conocimiento y algoritmos de detección de anomalías de series temporales permite identificar automáticamente hasta el 90% de las causas raíz dentro de cinco minutos. Como resultado, la eficiencia de O&M aumenta hasta cuatro veces, reduciendo significativamente el tiempo medio de reparación (MTTR) y minimizando la dependencia de la intervención manual y el error humano. En paralelo, KSManage establece un mecanismo de respuesta resiliente con alerta temprana, protección por niveles, y aislamiento y remediación automatizados. Los riesgos de capacidad de almacenamiento se pueden predecir hasta con tres días de antelación, reduciendo los costos generales de O&M y ofreciendo una reducción de hasta el 40% en el costo total de propiedad (TCO).

Experimente KSManage

KSManage ahora se ofrece para prueba, que se puede iniciar con solo unos clics, lo que permite a los usuarios explorar rápidamente y por completo las capacidades del producto. Para comenzar su prueba, por favor visite: (username: admin/password: Manage1!)

Para cualquier pregunta o información adicional, contáctenos en ksmanage@kaytus.com

¡Nuestro equipo responderá con prontitud!

Acerca de KAYTUS

KAYTUS es un proveedor líder de soluciones integrales de IA y refrigeración líquida, que ofrece una variedad diversa de productos innovadores, abiertos y ecológicos para la nube, IA, edge computing y otras aplicaciones emergentes. Con un enfoque centrado en el cliente, KAYTUS es ágil y responde con rapidez a las necesidades de los usuarios a través de su modelo de negocio adaptable. Descubra más en KAYTUS.com y síganos en LinkedIn y X

Ver la versión de origen en businesswire.com:

Contactos

**Contactos de medios **
media@kaytus.com

Términos y Política de Privacidad

Panel de Privacidad

Más información

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado