KAYTUS Melhora o KSManage com Visibilidade de Pilha Completa de Operações e Manutenção para Data Centers de IA

SelfRugger · 2026-04-01T08:52:35+00:00

Esta é uma comunicação de imprensa paga. Contacte diretamente o distribuidor da comunicação de imprensa para quaisquer dúvidas. KAYTUS Melhora o KSManage com Visibilidade de Pilha Completa de Operações e Manutenção para Data Centers de IA=========================================================================== Negócios

SelfRugger

2026-04-01 08:52:35

Este é um comunicado de imprensa pago. Contacte directamente o distribuidor do comunicado de imprensa para quaisquer questões.

A KAYTUS melhora o KSManage com visibilidade total de O&M full-stack para centros de dados de IA

Business Wire

Qui, 26 de Fevereiro de 2026 às 5:02 PM GMT+9 7 min de leitura

O KSManage foi concebido para o centro de dados de IA da próxima geração, com visibilidade a quatro níveis ao longo de componentes, servidores e armários, clusters e jobs de IA, e assegura a elevada disponibilidade dos centros de dados de IA

SINGAPURA, 26 de Fevereiro de 2026–(BUSINESS WIRE)–À medida que os centros de dados de IA se expandem para suportar cargas de trabalho de IA cada vez mais complexas, a monitorização tradicional de TI já não consegue fornecer a visibilidade necessária para operações fiáveis. A KAYTUS, um fornecedor líder de soluções de IA de ponta a ponta e de arrefecimento líquido, actualizou significativamente o KSManage, introduzindo visibilidade full-stack a quatro níveis em componentes, servidores e armários, clusters e jobs de IA, para enfrentar os desafios de resolução de problemas complexa, taxas de falha mais elevadas de componentes, dependências intrincadas de aplicações e respostas tardias a incidentes de operações e manutenção (O&M) gerados por operações exigentes em centros de dados de IA. A plataforma melhorada permite localizar falhas com precisão, responder a incidentes mais rapidamente e realizar operações proactivas. Com o KSManage, a KAYTUS ajuda os clientes a maximizar a disponibilidade, melhorar a eficiência operacional e garantir a estabilidade dos centros de dados de IA críticos para a missão que impulsionam a computação da próxima geração.

Quatro desafios principais limitam a eficiência operacional dos centros de dados de IA

A evolução rápida dos modelos de linguagem de grande escala (LLMs) está a acelerar o desenvolvimento de centros de dados de IA, impulsionando a adopção generalizada de arquitecturas heterogéneas de CPU, GPU e DPU e aumentando a necessidade de colaboração inter-regional. Estas tendências estão a aumentar significativamente a complexidade das operações e manutenção (O&M), em que mesmo uma única indisponibilidade pode resultar em perdas superiores a USD 1 milhão, evidenciando a crescente importância da disponibilidade e resiliência nas operações dos centros de dados de IA.

A complexidade da infra-estrutura dificulta a resolução de problemas.

Os centros de dados heterogéneos de IA integram uma vasta gama de sistemas de computação, rede, armazenamento e sistemas de suporte. As abordagens tradicionais de monitorização tratam os dispositivos como entidades isoladas e não dispõem de visibilidade ponta a ponta ao longo do sistema completo, tornando difícil o rastreio de falhas e a sua correlação. Como resultado, estes métodos ficam aquém das exigências operacionais rigorosas dos centros de dados de IA, que exigem detecção rápida, análise rápida e recuperação rápida. A incapacidade de identificar rapidamente as causas de base afecta directamente o tempo de recuperação e compromete a disponibilidade global do sistema.

Aumento das taxas de falha dos principais componentes e aviso preditivo limitado.

Componentes críticos como GPUs e dispositivos de armazenamento formam a base do desempenho e da estabilidade operacional dos centros de dados de IA. A adopção rápida de hardware com alta densidade de potência acelerou significativamente o desgaste dos componentes, impulsionando taxas de falha mais elevadas. Os dados da indústria indicam que o consumo de energia das GPUs aumentou mais de cinco vezes ao longo da última década, enquanto a densidade de potência dos armários subiu para 20–50 kW e aproxima-se gradualmente dos 200 kW. Nestas condições sustentadas de carga elevada, o risco de falha de componentes aumenta acentuadamente. No entanto, os sistemas de monitorização tradicionais não têm capacidade de acompanhamento em tempo real da saúde e de análise preditiva de tendências, limitando a capacidade de detectar sinais de aviso antecipados e de prevenir falhas de forma proactiva.

A história continua

Cenários complexos de aplicações de IA sem correlação empresarial ponta a ponta para monitorização.

Os centros de dados de IA suportam uma vasta gama de cenários de aplicações, incluindo conteúdo gerado por IA (AIGC), condução autónoma e computação científica. Estas cargas de trabalho impõem requisitos altamente diversos sobre recursos de computação, rede e armazenamento, tornando difícil correlacionar problemas subjacentes do hardware, como fugas de memória de GPU ou perdas de pacotes InfiniBand, com jobs de IA específicos. As estatísticas da indústria mostram que cerca de 8% das interrupções não planeadas do treino de LLM são causadas por falhas de módulos ópticos ou de fibras. Mesmo perdas de pacotes ao nível de milissegundos podem perturbar o treino, desencadear reinícios de jobs e forçar recuos do progresso, resultando em desperdício significativo de recursos de computação. As abordagens tradicionais de monitorização não têm visibilidade de ponta a ponta ao longo de ligações entre hardware, cargas de trabalho e processos de negócio, limitando a capacidade de identificar e resolver eficientemente este tipo de problemas.

Processos de manutenção complicados conduzem a respostas de O&M atrasadas.

A crescente necessidade de colaboração inter-regional aumentou significativamente a complexidade das operações e manutenção dos centros de dados de IA. Tarefas críticas como agendamento de recursos e planeamento de ligações de rede ainda dependem fortemente de processos manuais, que são morosos e propensos a erros. Ao mesmo tempo, a escassez de pessoal especializado em operações atrasa ainda mais os tempos de resposta, obrigando as organizações a adoptar uma abordagem largamente reactiv a para gestão de falhas. A ausência de mecanismos de resposta automatizados resulta num tempo médio de reparação (MTTR) mais longo, afectando negativamente a disponibilidade de serviço global e a eficiência operacional.

O KSManage aborda os quatro desafios principais com visibilidade inteligente automatizada a quatro níveis

Para enfrentar os desafios de operações e manutenção (O&M) dos centros de dados de IA, o KSManage introduz um novo quadro de monitorização inteligente de quatro camadas, que vai de componentes a sistemas. Tirando partido da visibilidade global ponta a ponta, a solução permite detecção automatizada de falhas, aviso antecipado e remediação inteligente—melhorando significativamente a eficiência de O&M e assegurando a elevada disponibilidade dos centros de dados de IA.

Visibilidade totalmente correlacionada com resolução de problemas em tempo real e visualização 3D

Para enfrentar a complexidade de resolução de problemas em centros de dados de IA de grande escala impulsionados por infra-estruturas heterogéneas e relações densamente interligadas, a KAYTUS KSManage fornece visibilidade totalmente correlacionada com inteligência visual unificada. A plataforma recolhe continuamente métricas centrais em tempo real, incluindo utilização de GPU e CPU, uso de memória de vídeo, consumo de energia, largura de banda de rede e estado do armazenamento, enquanto agrega em simultâneo eventos operacionais e logs de rede. Tirando partido da descoberta automatizada de topologia, o KSManage acompanha cargas de trabalho ponta a ponta entre nós, construindo uma base de dados integrada de “medição–log–trace”. Ao correlacionar a saúde dos dispositivos, até ao nível de telemetria de portas, ao longo de todo o ciclo de vida do job, o KSManage visualiza dinamicamente a alocação de recursos através de modelação 3D em tempo real. Esta abordagem ponta a ponta supera as limitações da monitorização tradicional compartimentada, permitindo uma análise de correlação precisa e transformando o diagnóstico da causa de base, que é moroso, em localização rápida e exacta de falhas, melhorando a eficiência da resolução de problemas em até 90%.

Análise preditiva de tendências do hardware com aviso antecipado para a fiabilidade dos componentes críticos.

Para enfrentar a falta de avisos antecipados proactivos, as taxas de falha crescentes e o desgaste acelerado dos componentes impulsionado pela adopção generalizada de dispositivos de alta densidade de potência, a KAYTUS KSManage estabelece um sistema inteligente de gestão de saúde do hardware e de aviso antecipado. Tirando partido de telemetria de hardware abrangente, o KSManage aplica algoritmos avançados para analisar profundamente as tendências de desempenho de componentes críticos, incluindo GPUs e dispositivos de armazenamento. Sinais precoces de desgaste anómalo são identificados com precisão, permitindo prever riscos de falha do hardware até sete dias com antecedência. Em paralelo, o KSManage monitoriza continuamente parâmetros operacionais-chave como carga e temperatura, mitigando proactivamente potenciais falhas sob condições sustentadas de carga elevada e reduzindo as taxas de falha dos componentes na origem.

Dependências de aplicações ponta a ponta correlacionadas com monitorização de rede e workflows.

Para enfrentar os desafios colocados por cenários diversos de aplicações de IA, workflows empresariais complexos e a dificuldade de correlacionar anomalias de hardware com tarefas de treino de IA, a KAYTUS KSManage fornece visibilidade totalmente correlacionada entre hardware, plataformas e cargas de trabalho. A solução monitoriza com precisão métricas de rede críticas, incluindo largura de banda, latência e perdas de pacotes, reservando uma margem de 20% de largura de banda para garantir transmissão de dados estável, mantendo latência interna ao nível de milissegundos e perdas de pacotes abaixo de 0.01%. Isto permite mapear com exactidão anomalias de hardware para jobs de treino específicos. Ao traçar o percurso completo desde anomalias de rede através das cargas de trabalho até ao impacto no negócio, o KSManage identifica rapidamente as causas de base de interrupções no treino de LLM, como falhas em módulos ópticos ou fibras, evitando recuos do treino, eliminando desperdício de recursos de computação e oferecendo visibilidade ponta a ponta para além das capacidades das ferramentas de monitorização tradicionais.

O&M automatizado a quatro níveis com resolução de problemas precisa e resposta rápida

Para enfrentar a dependência excessiva de operações manuais, a falta de pessoal especializado em O&M e as respostas tardias aos incidentes, a KAYTUS KSManage fornece um sistema de O&M resiliente e inteligente construído sobre um quadro de visibilidade em quatro camadas que abrange componentes, servidores e armários, clusters e cargas de trabalho de IA. Esta arquitectura unificada permite operações automatizadas ponta a ponta e diagnóstico de falhas preciso ao longo de todo o centro de dados de IA. As taxas de sucesso de cópia de segurança automatizada atingem quase 99.8%, enquanto a aplicação combinada de grafos de conhecimento e algoritmos de detecção de anomalias em séries temporais permite identificar até 90% das causas de base automaticamente num prazo de cinco minutos. Como resultado, a eficiência de O&M aumenta até quatro vezes, reduzindo significativamente o tempo médio de reparação (MTTR) e minimizando a dependência de intervenção manual e erro humano. Em paralelo, o KSManage estabelece um mecanismo de resposta resiliente com aviso antecipado, protecção em camadas e isolamento e remediação automatizados. Os riscos de capacidade de armazenamento podem ser previstos até três dias com antecedência, reduzindo os custos globais de O&M e entregando uma redução de até 40% no custo total de propriedade (TCO).

Experimente o KSManage

O KSManage está agora disponível para teste, que pode ser iniciado em apenas alguns cliques, permitindo que os utilizadores explorem rapidamente e de forma completa as capacidades do produto. Para iniciar o seu teste, por favor visite: (username: admin/password: Manage1!)

Para quaisquer questões ou informações adicionais, contacte-nos em ksmanage@kaytus.com

A nossa equipa responderá prontamente!

Sobre a KAYTUS

A KAYTUS é um fornecedor líder de soluções de IA e de arrefecimento líquido de ponta a ponta, fornecendo uma gama diversificada de produtos inovadores, abertos e amigos do ambiente para cloud, IA, edge computing e outras aplicações emergentes. Com uma abordagem centrada no cliente, a KAYTUS é ágil e responde de forma rápida às necessidades dos utilizadores através do seu modelo de negócio adaptável. Saiba mais em KAYTUS.com e siga-nos no LinkedIn e no X

Ver a versão da fonte em businesswire.com:

Contactos

**Contactos de Media **
media@kaytus.com

Condições e Política de Privacidade

Painel de Privacidade

Mais informações

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.