Trung Khoa Thứ Quang đã phát hành một siêu nút "phiên bản tiêu chuẩn", hình thái tương lai của sức mạnh tính toán suy luận AI?

robot
Đang tạo bản tóm tắt

Nguồn: Tài phương Thái

OpenClaw bất ngờ bùng nổ, vừa là một lần tất yếu “bắt mắt” của phân khúc AI Agent, vừa là một bài kiểm tra áp lực đối với thị trường hạ tầng điện toán suy luận AI.

Tại Diễn đàn Trung Quan Thôn năm 2026, Tập đoàn Năng lực Siêu máy tính Trung Quốc (Zhongke Shuguang) đã công bố siêu nút scaleX40 dạng thùng hộp không dây đầu tiên trên thế giới. Trước đó, siêu nút vốn là một “gã khổng lồ” quy mô hàng trăm thẻ thậm chí tới quy mô hàng nghìn, bao gồm scaleX640 do Zhongke Shuguang công bố, NVL72 của NVIDIA, và thăng tấn 384 của Huawei (Ascend 384).

Những siêu nút đỉnh cao này được sinh ra dành riêng cho huấn luyện các mô hình quy mô cực lớn, hiệu năng mạnh mẽ, nhưng ngưỡng triển khai cực cao: tủ rack tùy biến, kết nối dây cáp phức tạp, đội ngũ vận hành bảo trì chuyên nghiệp; mức đầu tư có thể lên tới hàng chục triệu thậm chí hàng trăm triệu, khiến chúng chỉ có thể phục vụ số ít người chơi hàng đầu, ví dụ như các tập đoàn công nghệ Internet hoặc các doanh nghiệp nhà nước/đơn vị trung ương lớn.

Ở “mặt trái” của siêu nút, là máy chủ GPU truyền thống và chủ đạo loại 8 thẻ trong thị trường suy luận. Dòng sản phẩm này linh hoạt khi triển khai, chi phí có thể kiểm soát, nhưng khi đối mặt với nhu cầu điện toán suy luận tăng cấp nhanh chóng của AI, hiệu năng tỏ ra có phần không theo kịp.

“Với quan điểm hiện tại, máy 8 thẻ đã tụt hậu rất xa rồi; dù có mở rộng quy mô liên kết Internet lên 16 thẻ, vẫn không thể đáp ứng được nhịp độ phát triển dịch vụ suy luận của mô hình.” Phó Tổng giám đốc cấp cao của Zhongke Shuguang, Lý Bân, cho biết: “Hạ tầng điện toán hỗ trợ phát triển AI đang dần chuyển từ ‘nhà máy điện toán’ ban đầu thành ‘nhà máy Token’. Đối tượng phục vụ chính của hệ thống điện toán đã chuyển từ việc trước đây chủ yếu hỗ trợ huấn luyện mô hình, sang bây giờ chủ yếu phục vụ suy luận.”

Trong thời đại huấn luyện, chỉ số cốt lõi để đánh giá hệ thống điện toán là có bao nhiêu công suất điện toán. Còn trong thời đại suy luận, chỉ số quan trọng hơn trở thành “tạo ra Token với chi phí kinh tế như thế nào”.

Hình ảnh đến từ AI tạo sinh

Nhu cầu AI phân hóa, điện toán suy luận vẫn chưa đáp ứng

Xét theo nhu cầu thị trường hiện tại, cấu trúc điện toán AI đang thay đổi theo phân tầng. Theo dự đoán của các tổ chức trong ngành, đầu tư vào hạ tầng AI toàn cầu vẫn sẽ tiếp tục tăng với tốc độ khá nhanh, nhưng nhu cầu gia tăng đang dần chuyển từ các cụm quy mô cực lớn sang các kịch bản doanh nghiệp cấp và ứng dụng theo ngành.

Trong xu hướng này, trọng điểm của phân bổ tài nguyên điện toán không còn chỉ đơn thuần theo đuổi giới hạn quy mô tối đa, mà còn chú trọng hơn đến sự cân bằng giữa hiệu năng, chi phí và tính linh hoạt. Nhận thức chung trong ngành là quy mô vài chục thẻ đã đủ để đáp ứng nhu cầu điện toán cho huấn luyện mô hình, suy luận và kiểm thử phát triển trong phần lớn các kịch bản ngành; đây cũng là khoảng “điểm chung lớn nhất” dung hòa hiệu quả và mức đầu tư.

Tuy nhiên, sự tiến hóa của nhu cầu ở lớp ứng dụng AI diễn ra quá nhanh. Ví dụ như OpenClaw bùng nổ, đại diện cho AI Agent, đang thay đổi cách thức ứng dụng trong các ngành truyền thống, đồng thời tạo ra yêu cầu cần tái cấu trúc đối với phía cung cấp điện toán hiện tại.

Thứ nhất là nút thắt cổ chai về truyền thông. Giờ đây các mô hình MoE khiến truyền thông trở thành “điểm kẹt” cốt lõi để nâng cao mức sử dụng điện toán, đặc biệt do sự không chắc chắn trong phân phối chuyên gia (experts) dẫn đến lượng lớn truyền thông xuyên thẻ, xuyên máy, trực tiếp “đâm thủng” kiến trúc hệ thống điện toán của máy chủ 8 thẻ truyền thống.

Thứ hai là nút thắt cổ chai về bộ nhớ hiển thị (VRAM). Cửa sổ ngữ cảnh tiếp tục được mở rộng; năng lực ghi nhớ ngữ cảnh dài mà OpenClaw cần cũng khiến nhu cầu bộ nhớ lớn và KV Cache tăng vọt. Đây cũng là giới hạn mà máy chủ 8 thẻ truyền thống khó vượt qua.

Thứ ba là nút thắt cổ chai về mức sử dụng điện toán. Mức sử dụng điện toán và chi phí triển khai thực tế cho suy luận gần như tỷ lệ nghịch. Các cụm truyền thống nhìn chung đều tồn tại vấn đề mức sử dụng điện toán chưa đủ; thách thức cốt lõi không chỉ là chất thêm phần cứng, mà là đạt mức tăng kép về hiệu năng hệ thống và điện toán hiệu dụng thông qua đổi mới kiến trúc phần cứng, kết hợp phát lực đồng bộ từ kỹ thuật hệ thống và kỹ thuật tối ưu hóa đi kèm.

Thứ tư là nút thắt cổ chai về hệ sinh thái. Hệ sinh thái điện toán nội địa phức tạp, có nhiều nhà cung cấp, chuỗi công nghiệp dài, độ khó của hợp tác công nghiệp không nhỏ. Vì vậy cần dựa vào kiến trúc tính toán mở để nối liền toàn bộ chuỗi thượng hạ nguồn của ngành như chip, mô hình, ứng dụng, nhằm xây dựng một nền tảng điện toán mở, dễ sử dụng, “mở hộp là dùng được”, kinh tế và phổ cập.

Zhongke Shuguang hy vọng dùng siêu nút “tiêu chuẩn” 40 thẻ để đáp lại thị trường. “Khu vực ‘ngon’ 40 thẻ là nơi chúng tôi đã cùng nhau điều tra khảo sát với nhiều khách hàng và mò mẫm ra.” Phó Tổng giám đốc của Zhongke Shuguang, Lý Liễu, cho biết: “Quy mô tham số và các kịch bản sử dụng của các mô hình chủ đạo hiện nay, với 32-40 thẻ đã có thể bao phủ phần lớn nhu cầu ngành, đồng thời vẫn cân bằng được chi phí và hiệu năng.”

Siêu nút scaleX40 tích hợp 40 GPU trên một nút. Tổng năng lực điện toán vượt quá 28PFLOPS (độ chính xác FP8), dung lượng bộ nhớ HBM hơn 5TB, băng thông truy cập bộ nhớ hơn 80TB/s. Độ tin cậy của hệ thống được nâng lên 99.99%.

Cấu hình quy mô của scaleX40 vừa có khả năng hỗ trợ huấn luyện và suy luận mô hình lớn, vừa không tạo áp lực đầu tư quá nặng. Ở phía dưới, nó có thể cân đối với 32 thẻ, đáp ứng huấn luyện, suy luận và kiểm thử phát triển quy mô nhỏ-vừa; ở phía trên, thông qua mở rộng, nó có thể tạo thành các cụm quy mô lớn hơn.

Lý Bân tính một khoản: “Việc đầu tư chồng thêm nhiều loại chi phí khi dùng 5 máy 8 thẻ truyền thống về cơ bản tương đương với scaleX40, nhưng scaleX40 có thể nâng hiệu năng huấn luyện lên 120%, và hiệu năng suy luận tối đa tăng lên tới 330%.”

Từ DeepSeek đến OpenClaw, bước ngoặt điện toán mới

“Token cần có điện toán để tạo ra đầu ra, nhưng các chiều đánh giá và chỉ số cũng trở nên nhiều hơn.” Lý Bân cho rằng: “Với người dùng phổ thông, họ quan tâm đến tốc độ phản hồi. Nếu bạn hỏi một câu hỏi, thì nó có thể phản hồi lại nhanh hay không; còn với người vận hành hệ thống điện toán, cần cân nhắc có thể đồng thời hỗ trợ bao nhiêu người dùng truy cập song song, đồng thời đáp ứng trải nghiệm sử dụng cơ bản.”

Đồng thời, phụ trách bộ phận nghiên cứu phát triển khung (AI framework) của Viện Nghiên cứu Ziyuan, Ao Yulong, cũng nêu ra rằng: “Trong tương lai, với bên cung cấp điện toán, chỉ số then chốt là cách chuyển điện toán thành Token có hiệu lực, chứ không phải Token vô hiệu. Ai hạ được chi phí này xuống, người đó mới là kẻ chiến thắng thực sự.”

Thiết kế scaleX40 được xây dựng xung quanh những nhu cầu mới này. Bộ nhớ lớn 144G hỗ trợ cửa sổ ngữ cảnh dài; cơ chế cache KV Cache đa cấp đáp ứng nhu cầu bộ nhớ lớn cho các kịch bản suy luận; liên kết nội bộ băng thông cao cấp một của 40 thẻ thu gộp lưu lượng out-to-out chuyên gia vào trong một nút. Những đặc tính này đều được đặt trong bối cảnh kiểm soát chi phí, nhằm tối đa hóa hiệu quả tạo Token trên mỗi đơn vị điện toán.

Thiết kế thùng hộp dây cáp không dây cũng là một khác biệt lớn của scaleX40. Một điểm đau cốt lõi của siêu nút truyền thống nằm ở độ phức tạp triển khai. Lấy NVIDIA NVL72 làm ví dụ: nó dùng phương án kết nối bằng cáp đồng; giữa các tủ rack cần lượng lớn cáp liên kết với nhau. Không chỉ yêu cầu khắt khe đối với môi trường phòng máy, thời gian triển khai cũng dài, mà tỷ lệ lỗi khi vận hành bảo trì về sau cũng cao.

Giải pháp của scaleX40 tương tự với giải pháp mới nhất mà NVIDIA công bố tại hội nghị GTC năm nay: sử dụng công nghệ bus để thực hiện mở rộng Scale-up; các nút tính toán và nút chuyển mạch dùng kiến trúc thùng cáp không dây trực tiếp cắm nối theo kiểu trực giao.

Thiết kế này mang lại nhiều lợi ích. Trước hết, hiệu năng của công nghệ bus đạt hơn 10 lần so với mạng NDR truyền thống, hỗ trợ lập địa chỉ thống nhất ngữ nghĩa bộ nhớ và bộ nhớ hiển thị. Thứ hai, một lớp mạng giúp độ trễ một chiều P2P giảm xuống trong phạm vi trăm nano giây; so với mạng hai lớp, độ trễ giảm hơn 30%, và tỷ lệ lỗi giảm 30%-50%.

Tiếp theo, scaleX40 áp dụng thiết kế thùng tiêu chuẩn 19 inch, chiều cao một máy chỉ 16U, có thể đặt trực tiếp vào các tủ rack phổ biến, tương thích với môi trường trung tâm dữ liệu hiện có, không cần cải tạo thêm.

“Trước đây, nhiều sản phẩm hoặc là tủ quá to, hoặc không chuẩn hóa, hoặc cải tạo phòng máy quá phức tạp.” Lý Liễu nói, “scaleX40 có thể đặt trong tủ rack chuẩn, dùng thiết bị cấp điện và làm mát của phòng máy chuẩn, nên ngưỡng triển khai và sử dụng giảm đáng kể.”

Người phụ trách kỹ thuật mạng điện toán thông minh của Viện Nghiên cứu Viễn thông Trung Quốc, Vương Tử Tiêu, cũng cho biết: “Cung cấp dịch vụ suy luận theo hình thái siêu nút, hiệu năng cao hơn khoảng 2.6 lần so với máy đơn 8 thẻ truyền thống. Năng lực ‘mở hộp là dùng được’ của siêu nút được tăng cường rõ rệt; độ phức tạp cấu hình của mạng Scale-out giảm theo bậc độ lớn, điều này rất có ý nghĩa đối với việc ứng dụng quy mô hóa của cả ngành.”

Nhìn sâu hơn, việc ra mắt scaleX40 cũng phản ánh sự trưởng thành của hệ sinh thái điện toán nội địa. Từ chip đến phần mềm hệ thống, từ lưu trữ đến mạng, từ thư viện toán tử đến thư viện truyền thông—một chuỗi công nghiệp hoàn chỉnh đang dần hình thành. Như Lý Bân đã nói: “Chúng tôi trong toàn bộ hệ sinh thái tính toán AI trong nước, từ chip đến phần mềm hệ thống, đến các mô hình và ứng dụng ở lớp trên, đang thực hiện sự phối hợp theo chiều dọc xuyên lớp; thông qua sự liên kết và phối hợp theo chiều dọc để phát huy hiệu suất tốt hơn.”

Khi siêu nút bắt đầu được triển khai và sử dụng theo cách đơn giản hơn, và khi hàng trăm ngành nghề nghìn nơi đều có thể nhận được năng lực điện toán cao cấp với chi phí hợp lý, thì ứng dụng AI quy mô hóa của Trung Quốc có lẽ cuối cùng mới thực sự bước qua bước then chốt. (Tác giả bài viết | Trương Sư, Biên tập | Dương Lâm)

Tuyên bố đặc biệt: Phần nội dung trên chỉ thể hiện quan điểm hoặc lập trường của chính tác giả, không đại diện cho quan điểm hoặc lập trường của Sina Finance Headlines. Nếu cần liên hệ với Sina Finance Headlines do nội dung tác phẩm, bản quyền hoặc các vấn đề khác, vui lòng trong vòng 30 ngày kể từ ngày đăng tải nội dung nêu trên.

Nhiều thông tin, lý giải chính xác—tất cả có trên ứng dụng Sina Finance APP

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim