KAYTUS Nâng cao KSManage với khả năng Quản lý vận hành toàn diện cho Trung tâm dữ liệu AI

Đây là một thông cáo báo chí trả phí. Liên hệ trực tiếp với đơn vị phân phối thông cáo báo chí để biết mọi thắc mắc.

KAYTUS Nâng cấp KSManage với khả năng quan sát O&M Full-Stack cho các Trung tâm Dữ liệu AI

Business Wire

Thu, ngày 26 tháng 2 năm 2026 lúc 5:02 PM GMT+9 7 min read

KSManage được thiết kế cho trung tâm dữ liệu AI thế hệ tiếp theo, với khả năng quan sát bốn cấp độ trên các thành phần, máy chủ và tủ, cụm, và các tác vụ AI, đồng thời đảm bảo tính sẵn sàng cao của các trung tâm dữ liệu AI

SINGAPORE, ngày 26 tháng 2 năm 2026–(BUSINESS WIRE)–Khi các trung tâm dữ liệu AI mở rộng để hỗ trợ các tác vụ AI ngày càng phức tạp, việc giám sát CNTT truyền thống không còn có thể cung cấp mức độ quan sát cần thiết cho vận hành đáng tin cậy. KAYTUS, một nhà cung cấp hàng đầu về các giải pháp AI end-to-end và làm mát bằng chất lỏng, đã nâng cấp đáng kể KSManage, giới thiệu khả năng quan sát full-stack, bốn cấp độ trên các thành phần, máy chủ và tủ, cụm, và các tác vụ AI, nhằm giải quyết các thách thức của việc khắc phục sự cố phức tạp, tỷ lệ hỏng hóc thành phần cao hơn, các phụ thuộc ứng dụng tinh vi và phản hồi chậm cho các sự cố vận hành và bảo trì (O&M) do các hoạt động của trung tâm dữ liệu AI đòi hỏi khắt khe gây ra. Nền tảng được nâng cấp giúp định vị lỗi chính xác, phản hồi sự cố nhanh hơn và vận hành chủ động. Với KSManage, KAYTUS giúp khách hàng tối đa hóa tính sẵn sàng, cải thiện hiệu quả vận hành và đảm bảo sự ổn định của các trung tâm dữ liệu AI trọng yếu, phục vụ cho điện toán thế hệ tiếp theo.

Bốn Thách thức Cốt lõi Giới hạn Hiệu quả Vận hành của các Trung tâm Dữ liệu AI

Sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn (LLMs) đang thúc đẩy việc phát triển các trung tâm dữ liệu AI, dẫn đến việc áp dụng rộng rãi các kiến trúc CPU, GPU và DPU không đồng nhất cũng như làm tăng nhu cầu hợp tác đa khu vực. Các xu hướng này đang làm gia tăng đáng kể mức độ phức tạp của vận hành và bảo trì (O&M), nơi chỉ một lần ngừng hoạt động có thể gây ra tổn thất vượt quá USD 1 triệu, nhấn mạnh tầm quan trọng ngày càng tăng của tính sẵn sàng và khả năng chống chịu trong vận hành trung tâm dữ liệu AI.

  1. Độ phức tạp về hạ tầng cản trở việc khắc phục sự cố.

Các trung tâm dữ liệu AI không đồng nhất tích hợp nhiều loại hệ thống tính toán, mạng, lưu trữ và các hệ thống hỗ trợ. Các phương pháp giám sát truyền thống coi thiết bị như những thực thể tách rời và thiếu khả năng quan sát end-to-end trên toàn bộ hệ thống, khiến việc theo dõi và tương quan lỗi trở nên khó khăn. Kết quả là, các phương pháp này không đáp ứng được các yêu cầu vận hành nghiêm ngặt của các trung tâm dữ liệu AI, vốn đòi hỏi phát hiện nhanh, phân tích nhanh và phục hồi nhanh. Việc không thể nhanh chóng xác định nguyên nhân gốc sẽ tác động trực tiếp đến thời gian khôi phục và làm suy giảm tính sẵn sàng tổng thể của hệ thống.

  1. Tỷ lệ hỏng hóc thành phần cốt lõi gia tăng và cảnh báo dự đoán hạn chế.

Các thành phần cốt lõi như GPU và thiết bị lưu trữ tạo nền tảng cho hiệu năng và độ ổn định vận hành của trung tâm dữ liệu AI. Việc áp dụng nhanh chóng phần cứng mật độ công suất cao đã làm tăng đáng kể mức độ hao mòn của thành phần, kéo theo tỷ lệ hỏng hóc cao hơn. Dữ liệu ngành cho thấy mức tiêu thụ điện năng của GPU đã tăng hơn năm lần trong thập kỷ qua, trong khi mật độ công suất của tủ đã tăng lên 20–50 kW và dần tiến gần 200 kW. Với các điều kiện tải cao kéo dài như vậy, rủi ro hỏng hóc thành phần tăng vọt. Tuy nhiên, các hệ thống giám sát truyền thống thiếu khả năng theo dõi tình trạng theo thời gian thực và phân tích xu hướng dự đoán, làm hạn chế khả năng phát hiện sớm dấu hiệu cảnh báo và chủ động ngăn ngừa hỏng hóc.

Story continues  
  1. Các kịch bản ứng dụng AI phức tạp thiếu tương quan kinh doanh end-to-end để giám sát.

Các trung tâm dữ liệu AI hỗ trợ nhiều kịch bản ứng dụng, bao gồm nội dung do AI tạo ra (AIGC), lái xe tự động và điện toán khoa học. Các tác vụ này đặt ra những yêu cầu rất đa dạng đối với tài nguyên tính toán, mạng và lưu trữ, khiến việc tương quan các vấn đề phần cứng tiềm ẩn, như rò rỉ bộ nhớ GPU hoặc mất gói InfiniBand, với các tác vụ AI cụ thể trở nên khó khăn. Thống kê ngành cho thấy khoảng 8% các lần gián đoạn huấn luyện LLM không dự kiến là do lỗi mô-đun quang hoặc cáp quang. Chỉ cần mất gói ở mức mili-giây cũng có thể làm gián đoạn huấn luyện, kích hoạt khởi động lại tác vụ và buộc hoàn tác tiến độ (rollback), dẫn đến lãng phí đáng kể tài nguyên tính toán. Các phương pháp giám sát truyền thống thiếu khả năng quan sát toàn tuyến (full-link) qua phần cứng, tải công việc và quy trình kinh doanh, khiến chúng không thể nhanh chóng khoanh vùng và giải quyết hiệu quả các vấn đề như vậy.

  1. Các quy trình bảo trì phức tạp dẫn đến phản hồi O&M bị trễ.

Nhu cầu ngày càng tăng về hợp tác đa khu vực đã làm tăng đáng kể độ phức tạp của hoạt động vận hành và bảo trì tại các trung tâm dữ liệu AI. Các nhiệm vụ quan trọng như lập lịch cấp phát tài nguyên và quy hoạch liên kết mạng vẫn dựa nhiều vào các quy trình thủ công, vừa tốn thời gian vừa dễ xảy ra sai sót. Đồng thời, tình trạng thiếu nhân sự vận hành cũng làm chậm hơn thời gian phản hồi, buộc các tổ chức phải áp dụng cách tiếp cận chủ yếu mang tính phản ứng đối với việc quản lý sự cố. Việc thiếu các cơ chế phản hồi tự động dẫn đến thời gian trung bình để sửa chữa (MTTR) kéo dài, ảnh hưởng tiêu cực đến tính sẵn sàng dịch vụ tổng thể và hiệu quả vận hành.

KSManage giải quyết bốn thách thức cốt lõi bằng khả năng quan sát thông minh bốn cấp độ full-stack

Để giải quyết các thách thức về vận hành và bảo trì (O&M) của các trung tâm dữ liệu AI, KSManage giới thiệu một khung giám sát thông minh bốn lớp mới được thiết lập, trải dài từ các thành phần đến các hệ thống. Nhờ tận dụng khả năng quan sát toàn cầu end-to-end, giải pháp cho phép phát hiện lỗi tự động, cảnh báo sớm và khắc phục thông minh—từ đó nâng cao đáng kể hiệu quả O&M và đảm bảo tính sẵn sàng cao của các trung tâm dữ liệu AI.

  1. Khả năng quan sát tương quan đầy đủ với khắc phục sự cố theo thời gian thực và trực quan hóa 3D

Để giải quyết độ phức tạp của việc khắc phục sự cố trong các trung tâm dữ liệu AI quy mô lớn do hạ tầng không đồng nhất và các mối quan hệ đan xen dày đặc tạo ra, KAYTUS KSManage cung cấp khả năng quan sát tương quan đầy đủ với trí tuệ trực quan thống nhất. Nền tảng liên tục thu thập các chỉ số lõi thời gian thực, bao gồm mức sử dụng GPU và CPU, mức sử dụng bộ nhớ video, mức tiêu thụ điện năng, băng thông mạng và tình trạng lưu trữ, đồng thời tổng hợp song song các sự kiện vận hành và nhật ký mạng. Bằng cách tận dụng tính năng phát hiện topology tự động, KSManage theo dõi các tải công việc cross-node end-to-end, xây dựng một nền tảng dữ liệu tích hợp “measurement–log–trace”. Bằng việc tương quan tình trạng thiết bị đến tận dữ liệu đo từ cấp cổng (port-level telemetry) trong toàn bộ vòng đời tác vụ, KSManage trực quan hóa động việc phân bổ tài nguyên thông qua mô hình 3D theo thời gian thực. Cách tiếp cận end-to-end này vượt qua các hạn chế của giám sát dạng silo truyền thống, cho phép phân tích tương quan toàn diện chính xác và chuyển việc chẩn đoán nguyên nhân gốc từ quá trình điều tra tốn thời gian sang định vị lỗi nhanh chóng và chính xác, đồng thời cải thiện hiệu quả khắc phục sự cố lên đến 90%.

  1. Phân tích xu hướng phần cứng dự đoán với cảnh báo sớm cho độ tin cậy của thành phần cốt lõi.

Để giải quyết tình trạng thiếu cảnh báo sớm chủ động, tỷ lệ hỏng hóc gia tăng và mức hao mòn thành phần tăng tốc do việc áp dụng rộng rãi các thiết bị mật độ công suất cao, KAYTUS KSManage thiết lập một hệ thống quản lý tình trạng phần cứng và cảnh báo sớm thông minh. Bằng cách tận dụng dữ liệu telemetry phần cứng toàn diện, KSManage áp dụng các thuật toán tiên tiến để phân tích sâu các xu hướng hiệu năng của các thành phần cốt lõi, bao gồm GPU và thiết bị lưu trữ. Các chỉ báo sớm về hao mòn bất thường được nhận diện chính xác, cho phép dự đoán rủi ro hỏng hóc phần cứng trước đến bảy ngày. Song song, KSManage liên tục giám sát các tham số vận hành quan trọng như tải và nhiệt độ, chủ động giảm thiểu các rủi ro hỏng hóc có thể xảy ra trong các điều kiện tải cao kéo dài và giảm tỷ lệ hỏng hóc thành phần ngay từ nguồn.

  1. Tương quan phụ thuộc ứng dụng end-to-end với giám sát mạng và quy trình làm việc.

Để giải quyết các thách thức do nhiều kịch bản ứng dụng AI khác nhau, các quy trình công việc kinh doanh phức tạp và độ khó trong việc tương quan các bất thường phần cứng với các tác vụ huấn luyện AI, KAYTUS KSManage cung cấp khả năng quan sát tương quan đầy đủ trên phần cứng, nền tảng và tải công việc. Giải pháp giám sát chính xác các chỉ số mạng trọng yếu, bao gồm băng thông, độ trễ và mất gói, đồng thời dành sẵn biên độ băng thông 20% để đảm bảo truyền dữ liệu ổn định, duy trì độ trễ nội bộ ở mức mili-giây và tỷ lệ mất gói dưới 0.01%. Điều này giúp ánh xạ chính xác các bất thường phần cứng tới các tác vụ huấn luyện cụ thể. Bằng cách lần theo toàn bộ hành trình từ các bất thường mạng qua tải công việc đến tác động kinh doanh, KSManage nhanh chóng xác định nguyên nhân gốc của các lần gián đoạn huấn luyện LLM, như lỗi mô-đun quang hoặc cáp quang, ngăn chặn việc hoàn tác huấn luyện (training rollbacks), loại bỏ lãng phí tài nguyên tính toán và cung cấp khả năng quan sát end-to-end vượt ra ngoài năng lực của các công cụ giám sát truyền thống.

  1. O&M tự động bốn cấp độ với khắc phục sự cố chính xác và phản hồi nhanh

Để giải quyết sự phụ thuộc quá mức vào các thao tác thủ công, tình trạng thiếu nhân sự O&M chuyên môn và phản hồi sự cố bị trễ, KAYTUS KSManage cung cấp một hệ thống O&M bền vững và thông minh, được xây dựng dựa trên khung quan sát bốn lớp bao phủ các thành phần, máy chủ và tủ, cụm, và các tải công việc AI. Kiến trúc hợp nhất này cho phép vận hành tự động end-to-end và chẩn đoán lỗi chính xác trên toàn bộ trung tâm dữ liệu AI. Tỷ lệ sao lưu tự động thành công đạt gần 99.8%, trong khi việc kết hợp ứng dụng biểu đồ tri thức (knowledge graphs) và các thuật toán phát hiện bất thường theo chuỗi thời gian cho phép nhận diện tự động tới 90% nguyên nhân gốc trong vòng năm phút. Kết quả là, hiệu quả O&M tăng lên tới bốn lần, giảm đáng kể thời gian trung bình để sửa chữa (MTTR) và giảm thiểu sự phụ thuộc vào can thiệp thủ công cũng như lỗi do con người. Song song, KSManage thiết lập một cơ chế phản hồi bền vững với cảnh báo sớm, bảo vệ theo tầng, và cách ly cùng khắc phục tự động. Rủi ro về dung lượng lưu trữ có thể được dự đoán trước đến ba ngày, giảm chi phí O&M tổng thể và mang lại mức giảm lên đến 40% chi phí sở hữu tổng thể (TCO).

Trải nghiệm KSManage

KSManage hiện có sẵn để dùng thử, có thể khởi chạy chỉ với vài lần nhấp chuột, cho phép người dùng nhanh chóng và khám phá đầy đủ năng lực của sản phẩm. Để bắt đầu dùng thử, vui lòng truy cập: (username: admin/password: Manage1!)

Đối với mọi câu hỏi hoặc thông tin bổ sung, vui lòng liên hệ với chúng tôi tại ksmanage@kaytus.com

Đội ngũ của chúng tôi sẽ phản hồi kịp thời!

Về KAYTUS

KAYTUS là nhà cung cấp hàng đầu các giải pháp AI và làm mát bằng chất lỏng end-to-end, cung cấp nhiều dòng sản phẩm đổi mới, mở và thân thiện với môi trường cho điện toán đám mây, AI, edge computing và các ứng dụng mới nổi khác. Với phương châm lấy khách hàng làm trung tâm, KAYTUS linh hoạt và đáp ứng nhanh nhu cầu của người dùng thông qua mô hình kinh doanh có thể thích nghi của mình. Khám phá thêm tại KAYTUS.com và theo dõi chúng tôi trên LinkedIn và X

Xem phiên bản nguồn trên businesswire.com:

Liên hệ

**Liên hệ Truyền thông **
media@kaytus.com

Điều khoản và Chính sách Quyền riêng tư

Bảng điều khiển Quyền riêng tư

More Info

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Ghim