KAYTUS покращує KSManage завдяки повноцінній видимості повного циклу експлуатації та обслуговування для центрів обробки даних з AI

Це платний пресреліз. Будь-які запитання надсилайте напряму дистриб’ютору пресрелізів.

KAYTUS ПІДВИЩУЄ KSManage повноконтурною видимістю O&M для AI дата-центрів

Business Wire

Чт, 26 лютого 2026 р. о 17:02 за GMT+9 7 хв читання

KSManage призначено для AI дата-центру нового покоління: забезпечує чотирирівневу видимість у компонентах, серверах і шафах, кластерах та AI-завданнях, і гарантує високу доступність AI дата-центрів

СИНГАПУР, 26 лютого 2026–(BUSINESS WIRE)–Оскільки AI дата-центри масштабуються для підтримки дедалі складніших AI-навантажень, традиційний моніторинг ІТ більше не може забезпечити потрібну видимість для надійної роботи. KAYTUS, провідний постачальник рішень для наскрізного AI та рідинного охолодження, суттєво оновив KSManage, упровадивши повноконтурну, чотирирівневу видимість у компонентах, серверах і шафах, кластерах та AI-завданнях, щоб подолати виклики складного усунення несправностей, вищі темпи відмов компонентів, складні залежності застосунків і затримані відповіді на інциденти з технічного обслуговування та супроводу (O&M), спричинені вимогливою експлуатацією AI дата-центрів. Оновлена платформа дає змогу точно локалізувати збої, швидше реагувати на інциденти та переходити до проактивної експлуатації. Завдяки KSManage KAYTUS допомагає клієнтам максимально підвищувати доступність, покращувати операційну ефективність і забезпечувати стабільність критично важливих AI дата-центрів, що живлять обчислення нового покоління.

Чотири ключові виклики стримують операційну ефективність AI дата-центрів

Швидка еволюція великих мовних моделей (LLM) пришвидшує розвиток AI дата-центрів, стимулюючи широке впровадження неоднорідних архітектур CPU, GPU та DPU і підвищуючи потребу в міжрегіональній співпраці. Ці тренди суттєво підвищують складність технічного обслуговування та супроводу (O&M), де навіть одна-єдина аварія може призводити до збитків, що перевищують USD 1 мільйон, підкреслюючи зростаючу важливість доступності та стійкості в роботі AI дата-центрів.

  1. Складність інфраструктури ускладнює усунення несправностей.

AI неоднорідні дата-центри інтегрують широкий спектр обчислювальних, мережевих, систем зберігання та допоміжних систем. Традиційні підходи моніторингу розглядають пристрої як ізольовані сутності та не надають наскрізної видимості в межах повної системи, через що відстеження та кореляція збоїв стають складними. У результаті ці методи не відповідають жорстким операційним вимогам AI дата-центрів, які потребують швидкого виявлення, швидкого аналізу та швидкого відновлення. Неможливість швидко визначити першопричини безпосередньо впливає на час відновлення та підриває загальну доступність системи.

  1. Зростання темпів відмов базових компонентів і обмежені попереджувальні прогнози.

Базові компоненти, зокрема GPU та пристрої зберігання, є основою продуктивності та операційної стабільності AI дата-центру. Швидке впровадження високої щільності потужності апаратного забезпечення суттєво пришвидшило зношування компонентів, що призвело до вищих темпів відмов. Дані галузі вказують, що енергоспоживання GPU збільшилося більш ніж у п’ять разів протягом останнього десятиліття, тоді як щільність потужності в шафі зросла до 20–50 кВт і поступово наближається до 200 кВт. За таких тривалих умов високого навантаження ризик відмов компонентів різко зростає. Однак традиційні системи моніторингу не мають відстеження стану в реальному часі та аналізу прогнозних трендів, що обмежує можливість виявляти ранні ознаки та проактивно запобігати відмовам.

Історія триває  
  1. Складні сценарії застосунків AI не мають наскрізної кореляції бізнесу для моніторингу.

AI дата-центри підтримують широкий спектр сценаріїв застосунків, включно з контентом, згенерованим AI (AIGC), автономним керуванням та науковими обчисленнями. Такі навантаження висувають дуже різноманітні вимоги до ресурсів обчислення, мережі та зберігання, через що важко корелювати базові проблеми апаратного забезпечення, як-от витоки пам’яті GPU або втрати пакетів InfiniBand, із конкретними AI-завданнями. Статистика галузі показує, що приблизно 8% незапланованих переривань навчання LLM спричинені відмовами оптичних модулів або волокон. Навіть втрата пакетів на рівні мілісекунд може порушити навчання, спричинити перезапуски завдань і змусити відкочувати прогрес, що призводить до суттєвих втрат обчислювальних ресурсів. Традиційні підходи моніторингу не забезпечують повної видимості наскрізних зв’язків між апаратним забезпеченням, навантаженнями та бізнес-процесами, обмежуючи здатність точно визначати й ефективно розв’язувати такі проблеми.

  1. Ускладнені процеси технічного обслуговування призводять до затримки відповідей на O&M.

Зростаюча потреба в міжрегіональній співпраці суттєво підвищила складність операцій AI дата-центрів і технічного обслуговування та супроводу. Критично важливі завдання, зокрема планування розподілу ресурсів і проєктування мережевих каналів, усе ще значною мірою залежать від ручних процесів, які займають багато часу та схильні до помилок. Водночас обмежена чисельність персоналу, відповідального за експлуатацію, додатково уповільнює час реакції, змушуючи організації застосовувати переважно реактивний підхід до керування збоями. Відсутність автоматизованих механізмів реагування призводить до збільшення середнього часу відновлення (MTTR), негативно впливаючи на загальну доступність сервісу та операційну ефективність.

KSManage долає чотири ключові виклики завдяки повноконтурній чотирирівневій інтелектуальній видимості

Щоб подолати операційні та інженерно-експлуатаційні (O&M) виклики AI дата-центрів, KSManage запроваджує новостворену чотирирівневу інтелектуальну модель моніторингу — від компонентів до систем. Використовуючи глобальну наскрізну видимість, рішення забезпечує автоматизоване виявлення збоїв, ранні попередження та інтелектуальне відновлення — суттєво підвищуючи ефективність O&M і гарантуючи високу доступність AI дата-центрів.

  1. Повністю корельована видимість із усуненням несправностей у реальному часі та 3D-візуалізацією

Щоб подолати складність усунення несправностей у масштабних AI дата-центрах, зумовлених неоднорідною інфраструктурою та тісно переплетеними зв’язками, KAYTUS KSManage надає повністю корельовану видимість із єдиним візуальним інтелектом. Платформа безперервно збирає ключові метрики в реальному часі, зокрема завантаження GPU та CPU, використання відеопам’яті, споживання електроенергії, мережеву пропускну здатність і стан зберігання, водночас агрегуючи операційні події та мережеві журнали. Використовуючи автоматизоване виявлення топології, KSManage відстежує наскрізні міжвузлові навантаження, формуючи інтегровану базу даних типу «вимірювання–журнал–трасування». Корелюючи стан пристроїв і аж до телеметрії рівня порту протягом усього життєвого циклу завдання, KSManage динамічно візуалізує розподіл ресурсів за допомогою реального 3D-моделювання. Цей підхід «end-to-end» долає обмеження традиційного моніторингу в ізольованих «силах», забезпечуючи точний повний аналіз кореляції та перетворюючи діагностику першопричин із тривалого розслідування на швидку, точну локалізацію збоїв, підвищуючи ефективність усунення несправностей до 90%.

  1. Прогнозний аналіз трендів апаратного забезпечення з раннім попередженням щодо надійності базових компонентів.

Щоб подолати брак проактивних ранніх попереджень, зростання темпів відмов і прискорене зношування компонентів, спричинене широким впровадженням пристроїв із високою щільністю потужності, KAYTUS KSManage створює інтелектуальну систему керування станом апаратного забезпечення та ранніх попереджень. Використовуючи комплексну телеметрію апаратного забезпечення, KSManage застосовує передові алгоритми для глибокого аналізу трендів продуктивності критично важливих компонентів, зокрема GPU та пристроїв зберігання. Ранні індикатори ненормального зношування виявляються точно, що дає змогу прогнозувати ризики відмов обладнання 7 днів наперед. Паралельно KSManage безперервно відстежує ключові операційні параметри, як-от навантаження та температура, проактивно зменшуючи потенційні відмови за умов тривалого високого навантаження та знижуючи темпи відмов компонентів — безпосередньо на рівні джерела.

  1. Корельовані наскрізні залежності застосунків, поєднані з моніторингом мережі та робочими процесами.

Щоб подолати виклики, спричинені різними сценаріями застосунків AI, складними бізнес-робочими процесами та труднощами кореляції аномалій апаратного забезпечення з задачами навчання AI, KAYTUS KSManage надає повну корельовану видимість між апаратним забезпеченням, платформами та навантаженнями. Рішення точно відстежує критично важливі мережеві метрики, зокрема пропускну здатність, затримку та втрати пакетів, залишаючи запас 20% пропускної здатності, щоб забезпечити стабільну передачу даних, підтримуючи внутрішню затримку на рівні мілісекунд і втрати пакетів нижче 0.01%. Це дає змогу точно пов’язати аномалії апаратного забезпечення з конкретними завданнями навчання. Відстежуючи весь шлях від мережевих аномалій через навантаження до бізнес-впливу, KSManage швидко визначає першопричини переривань навчання LLM, як-от проблеми з оптичним модулем або волокном, запобігаючи відкочуванню навчання, усуваючи втрати обчислювальних ресурсів і забезпечуючи наскрізну видимість, що виходить за межі можливостей традиційних інструментів моніторингу.

  1. Чотирирівневий автоматизований O&M із точним усуненням несправностей і швидкою реакцією

Щоб подолати надмірну залежність від ручних операцій, нестачу спеціалізованого персоналу з O&M і затриману реакцію на інциденти, KAYTUS KSManage надає стійку, інтелектуальну систему O&M, побудовану на чотирирівневій моделі видимості — від компонентів, серверів і шаф, кластера та AI-навантажень. Ця уніфікована архітектура забезпечує наскрізні автоматизовані операції та точну діагностику збоїв у межах усього AI дата-центру. Показники успішності автоматизованого резервного копіювання досягають майже 99.8%, тоді як поєднання графів знань і алгоритмів виявлення аномалій часових рядів дозволяє автоматично ідентифікувати до 90% першопричин за п’ять хвилин. Як наслідок, ефективність O&M зростає до чотирьох разів, суттєво зменшуючи середній час відновлення (MTTR) та зводячи до мінімуму залежність від ручного втручання й людських помилок. Паралельно KSManage впроваджує стійкий механізм реагування, що включає ранні попередження, ступеневий захист та автоматизовану ізоляцію й відновлення. Ризики для ємності сховища можна прогнозувати до трьох днів наперед, що знижує загальні витрати на O&M та забезпечує до 40% зменшення загальної вартості володіння (TCO).

Спробуйте KSManage

Зараз KSManage доступний для тестування, яке можна запустити всього за кілька кліків, даючи змогу користувачам швидко й повноцінно дослідити можливості продукту. Щоб розпочати тестування, будь ласка, відвідайте: (username: admin/password: Manage1!)

З будь-яких питань або для отримання додаткової інформації звертайтеся до нас за адресою ksmanage@kaytus.com

Наша команда відповість оперативно!

Про KAYTUS

KAYTUS — провідний постачальник рішень для наскрізного AI та рідинного охолодження, що пропонує різноманітний спектр інноваційних, відкритих і екологічно дружніх продуктів для хмар, AI, edge computing та інших перспективних застосувань. Завдяки клієнтоорієнтованому підходу KAYTUS є гнучким і оперативно реагує на потреби користувачів завдяки адаптивній бізнес-моделі. Дізнайтеся більше на KAYTUS.com і підписуйтесь на нас у LinkedIn та X

Переглянути вихідну версію на businesswire.com:

Контакти

**Медійні контакти **
media@kaytus.com

Умови та політика конфіденційності

Панель конфіденційності

Додаткова інформація

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити