KAYTUS расширяет KSManage, обеспечивая полный контроль и видимость операций для дата-центров ИИ

Это платный пресс-релиз. По любым вопросам напрямую обращайтесь к распространителю пресс-релиза.

KAYTUS улучшает KSManage за счет полной видимости O&M на уровне full-stack для AI-ЦОД

Business Wire

Чт, 26 февраля 2026 г. в 5:02 PM GMT+9 7 min read

KSManage предназначена для AI-ЦОД нового поколения: обеспечивает четырехуровневую видимость по компонентам, серверам и стойкам, кластерам и AI-задачам, а также гарантирует высокую доступность AI-ЦОД

СИНГАПУР, 26 февраля 2026 г.–(BUSINESS WIRE)–Поскольку AI-ЦОД масштабируются для поддержки все более сложных AI-нагрузок, традиционный мониторинг IT больше не может обеспечить нужную видимость для надежной работы. KAYTUS, ведущий поставщик end-to-end решений для AI и жидкостного охлаждения, существенно обновила KSManage, представив полную видимость full-stack в четыре уровня по компонентам, серверам и стойкам, кластерам и AI-задачам, чтобы справиться с трудностями сложного устранения неполадок, более высокими показателями отказов компонентов, сложными зависимостями приложений и задержками в реагировании на инциденты по эксплуатации и техническому обслуживанию (O&M), возникающие при интенсивной работе AI-ЦОД. Усиленная платформа обеспечивает точную локализацию неисправностей, более быстрое реагирование на инциденты и проактивную эксплуатацию. С KSManage KAYTUS помогает клиентам максимизировать доступность, повысить операционную эффективность и обеспечить стабильность критически важных AI-ЦОД, которые поддерживают вычисления нового поколения.

Четыре ключевые проблемы ограничивают операционную эффективность AI-ЦОД

Быстрое развитие больших языковых моделей (LLM) ускоряет создание AI-ЦОД, что способствует широкому внедрению гетерогенных архитектур CPU, GPU и DPU и увеличивает потребность в межрегиональном сотрудничестве. Эти тенденции значительно повышают сложность эксплуатации и технического обслуживания (O&M), где даже один простой может приводить к потерям, превышающим USD 1 млн, подчеркивая растущую важность доступности и устойчивости в операциях AI-ЦОД.

  1. Сложность инфраструктуры мешает устранению неполадок.

Гетерогенные AI-ЦОД объединяют широкий спектр вычислительных, сетевых, хранилищных и вспомогательных систем. Традиционные подходы к мониторингу рассматривают устройства как изолированные сущности и не обеспечивают сквозную видимость по всей системе, что усложняет отслеживание неисправностей и их корреляцию. В результате эти методы не соответствуют строгим эксплуатационным требованиям AI-ЦОД, которые требуют быстрого обнаружения, быстрого анализа и быстрого восстановления. Невозможность быстро определить первопричины напрямую влияет на время восстановления и подрывает общую доступность системы.

  1. Рост показателей отказов базовых компонентов и ограниченные предупреждения на основе прогнозирования.

Базовые компоненты, такие как GPU и устройства хранения, формируют фундамент производительности и операционной стабильности AI-ЦОД. Быстрое внедрение высокомощного оборудования в значительной степени ускорило износ компонентов, что приводит к более высоким показателям отказов. Данные отрасли указывают, что энергопотребление GPU выросло более чем в пять раз за последнее десятилетие, а плотность мощности шкафа поднялась до 20–50 кВт и постепенно приближается к 200 кВт. При таких устойчивых условиях высокой нагрузки риск отказов компонентов резко возрастает. Однако традиционные системы мониторинга не имеют отслеживания состояния в реальном времени и анализа прогнозных трендов, что ограничивает способность выявлять ранние признаки и проактивно предотвращать отказы.

История продолжается  
  1. Сложные сценарии работы AI не имеют сквозной бизнес-корреляции для мониторинга.

AI-ЦОД поддерживают широкий спектр сценариев применения, включая контент, сгенерированный AI (AIGC), автономное вождение и научные вычисления. Эти нагрузки предъявляют крайне разнообразные требования к вычислительным, сетевым и хранилищным ресурсам, из-за чего сложно соотнести лежащие в основе проблемы с оборудованием, такие как утечки памяти GPU или потери пакетов InfiniBand, с конкретными AI-задачами. Отраслевые статистические данные показывают, что примерно 8% незапланированных перерывов в обучении LLM вызваны отказами оптического модуля или волокна. Даже потери пакетов на уровне миллисекунд могут нарушить обучение, вызвать перезапуски задач и вынудить откатывать прогресс, приводя к существенной потере вычислительных ресурсов. Традиционные подходы к мониторингу не обеспечивают полной сквозной видимости по линиям связи, нагрузкам и бизнес-процессам на уровне end-to-end, ограничивая возможность точно выявлять и эффективно устранять такие проблемы.

  1. Сложные процессы технического обслуживания приводят к задержкам ответов по O&M.

Растущая потребность в межрегиональном сотрудничестве значительно увеличила сложность эксплуатации и технического обслуживания AI-ЦОД. Критически важные задачи, такие как планирование ресурсов и проектирование сетевых линков, по-прежнему во многом опираются на ручные процессы, которые отнимают много времени и подвержены ошибкам. Одновременно нехватка специализированного персонала по эксплуатации дополнительно замедляет время реагирования, заставляя организации идти в основном по реактивному пути управления неисправностями. Отсутствие механизмов автоматизированного реагирования приводит к увеличению среднего времени до восстановления (MTTR), отрицательно влияя на общую доступность услуг и операционную эффективность.

KSManage решает четыре ключевые проблемы за счет full-stack четырехуровневой интеллектуальной видимости

Для решения проблем эксплуатации и технического обслуживания (O&M) AI-ЦОД KSManage представляет вновь созданную четырехуровневую интеллектуальную платформу мониторинга — от компонентов до систем. Используя глобальную сквозную видимость, решение обеспечивает автоматизированное обнаружение неисправностей, раннее предупреждение и интеллектуальную ремедиацию, значительно повышая эффективность O&M и гарантируя высокую доступность AI-ЦОД.

  1. Полностью коррелируемая видимость для устранения неполадок в реальном времени и 3D-визуализация

Чтобы решить сложность устранения неполадок в масштабных AI-ЦОД, обусловленную гетерогенной инфраструктурой и плотными взаимосвязями, KAYTUS KSManage предоставляет полную коррелируемую видимость с унифицированным визуальным интеллектом. Платформа непрерывно собирает показатели в реальном времени — включая загрузку GPU и CPU, использование видеопамяти, энергопотребление, пропускную способность сети и состояние хранения, — одновременно агрегируя операционные события и сетевые логи. Используя автоматизированное обнаружение топологии, KSManage отслеживает сквозные кросс-узловые нагрузки, формируя интегрированную основу данных «измерение–лог–трассировка». Коррелируя состояние устройств вплоть до телеметрии на уровне портов на протяжении всего жизненного цикла задачи, KSManage динамически визуализирует распределение ресурсов через моделирование в реальном времени в 3D. Такой подход end-to-end преодолевает ограничения традиционного мониторинга в изолированных «силах», обеспечивая точный анализ полной корреляции и превращая диагностику первопричин из трудоемкого расследования в быстрое и точное определение локации неисправности, повышая эффективность устранения неполадок до 90%.

  1. Прогнозный анализ аппаратных трендов с ранними предупреждениями для надежности ключевых компонентов.

Чтобы устранить нехватку проактивных ранних предупреждений, рост показателей отказов и ускоренный износ компонентов, вызванный широким внедрением высокоплотных устройств по мощности, KAYTUS KSManage развертывает интеллектуальную систему управления состоянием оборудования и раннего предупреждения. Используя всеобъемлющую аппаратную телеметрию, KSManage применяет передовые алгоритмы для глубокого анализа производственных трендов критически важных компонентов, включая GPU и устройства хранения. Ранние признаки ненорменного износа выявляются точно, позволяя прогнозировать риски отказов оборудования до семи дней вперед. Параллельно KSManage непрерывно отслеживает ключевые параметры эксплуатации, такие как нагрузка и температура, проактивно снижая потенциальные отказы при устойчивых условиях высокой нагрузки и уменьшая показатели отказов компонентов на уровне источника.

  1. Сквозные коррелируемые зависимости приложения с сетевым мониторингом и рабочими процессами.

Чтобы решить задачи, возникающие при разнообразных сценариях работы AI, сложных бизнес-рабочих процессах и сложности корреляции аппаратных аномалий с задачами обучения AI, KAYTUS KSManage обеспечивает полную коррелируемую видимость по оборудованию, платформам и нагрузкам. Решение точно отслеживает критически важные сетевые метрики — включая пропускную способность, задержку и потери пакетов, — при этом выделяя 20% запас пропускной способности для обеспечения стабильной передачи данных, поддерживая внутреннюю задержку на уровне миллисекунд и потери пакетов ниже 0.01%. Это позволяет точно сопоставлять аппаратные аномалии с конкретными задачами обучения. Отслеживая весь путь — от сетевых аномалий через нагрузки до влияния на бизнес — KSManage быстро выявляет первопричины перерывов в обучении LLM, такие как неисправности оптического модуля или волокна, предотвращая откаты обучения, устраняя потери вычислительных ресурсов и обеспечивая сквозную видимость, выходящую за рамки возможностей традиционных инструментов мониторинга.

  1. Автоматизированный O&M в четырех уровнях с точным устранением неполадок и быстрым реагированием

Чтобы устранить чрезмерную зависимость от ручных операций, дефицит специализированного персонала O&M и задержки в реакции на инциденты, KAYTUS KSManage предоставляет устойчивую интеллектуальную систему O&M, построенную на четырехуровневой модели видимости — для компонентов, серверов и стоек, кластеров и AI-нагрузок. Эта унифицированная архитектура обеспечивает сквозные автоматизированные операции и точную диагностику неисправностей во всем AI-ЦОД. Автоматизированные показатели успешного резервного копирования достигают почти 99.8%, а совместное применение графов знаний и алгоритмов обнаружения аномалий по временным рядам позволяет автоматически идентифицировать до 90% первопричин в течение пяти минут. В результате эффективность O&M повышается до четырех раз, существенно сокращая среднее время до восстановления (MTTR) и минимизируя зависимость от ручного вмешательства и человеческих ошибок. Параллельно KSManage создает устойчивый механизм реагирования, включающий ранние предупреждения, ступенчатую защиту, а также автоматизированную изоляцию и ремедиацию. Риски для емкости хранилища можно прогнозировать до трех дней вперед, снижая общие затраты на O&M и обеспечивая сокращение до 40% совокупной стоимости владения (TCO).

Погрузитесь в KSManage

KSManage теперь доступна для пробного запуска, который можно выполнить всего в несколько кликов, позволяя пользователям быстро и полностью исследовать возможности продукта. Чтобы начать пробный период, перейдите по адресу: (username: admin/password: Manage1!)

По любым вопросам или для получения дополнительной информации, пожалуйста, свяжитесь с нами по адресу ksmanage@kaytus.com

Наша команда ответит оперативно!

О KAYTUS

KAYTUS — ведущий поставщик решений end-to-end для AI и жидкостного охлаждения, предоставляющий широкий спектр инновационных, открытых и экологичных продуктов для облака, AI, edge computing и других перспективных применений. Благодаря клиентоориентированному подходу KAYTUS гибко и оперативно реагирует на потребности пользователей благодаря адаптивной модели бизнеса. Узнайте больше на KAYTUS.com и подпишитесь на нас в LinkedIn и X

Посмотреть исходную версию на businesswire.com:

Контакты

**Контакты для СМИ **
media@kaytus.com

Условия и Политика конфиденциальности

Панель управления конфиденциальностью

Больше информации

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить