Đối chuẩn với Nvidia, "động mạch tính toán" của nước nhà đã ra mắt! Zhongke Sunlight phát hành sản phẩm mạng IB tự phát triển toàn bộ ngăn xếp đầu tiên Đã hỗ trợ cụm thông minh tính toán cấp vạn card

robot
Đang tạo bản tóm tắt

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:财联社)

《科创板日报》3月13日讯(记者 郭辉)3月12日,中科曙光在郑州宣布实现国产高端原生RDMA技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。

据了解,中科曙光scaleFabric là sản phẩm mạng IB tự phát triển toàn bộ hệ thống đầu tiên của Trung Quốc.

Trong lĩnh vực các cụm máy tính trí tuệ quy mô lớn, mạng RDMA (Truy cập bộ nhớ trực tiếp từ xa) đã trở thành yêu cầu cơ bản của trung tâm tính toán. Trung tâm sáng tạo của Trung Quốc dựa trên kiến trúc RDMA nguyên bản, từ phần cứng như IP SerDes 112G, thiết bị phần cứng đến phần mềm quản lý phía trên đều tự phát triển 100%, phá vỡ độc quyền công nghệ của nước ngoài về các mạng RDMA nguyên bản cao cấp.

Học sĩ Viện Hàn lâm Kỹ thuật Trung Quốc U Hữu Toàn cho biết, mạng tốc độ cao là công nghệ cốt lõi của hạ tầng tính toán, tính tự chủ và kiểm soát trực tiếp liên quan đến an ninh và chất lượng phát triển của hạ tầng tính toán quốc gia. Trong bối cảnh huấn luyện mô hình lớn và triển khai quy mô các cụm trí tuệ, mạng cần có độ trễ cực thấp, băng thông cực cao và khả năng truyền tải không mất mát, trong đó mạng tốc độ cao RDMA chính là “động mạch lớn của năng lực tính toán” của các cụm trí tuệ.

Hiện tại, InfiniBand và RoCE là các giải pháp công nghệ mạng tốc độ cao chủ đạo trên thị trường. Trong đó, InfiniBand nhờ vào độ trễ thấp và khả năng truyền không mất mát nguyên bản, được sử dụng rộng rãi trong các siêu máy tính hàng đầu và các cụm AI toàn cầu. Theo bảng xếp hạng TOP500, khoảng 60% hệ thống tính toán hiệu suất cao toàn cầu sử dụng kiến trúc mạng InfiniBand.

scaleFabric của Trung Quốc sử dụng tuyến đường InfiniBand nguyên bản RDMA, không phải RoCE. Về vấn đề này, Trung tâm sáng tạo của Trung Quốc cho biết, tuyến đường công nghệ của InfiniBand có lợi thế không thể thay thế trong AI/HPC, là mạng thực sự không mất mát, đặc tính không mất mát này giúp phát huy tối đa hiệu suất của RDMA, đồng thời dễ quản lý mạng hơn.

Trước đây, chuỗi ngành liên quan đến InfiniBand (IB) gần như bị các nhà sản xuất nước ngoài độc quyền.

Năm 2019, Nvidia mua lại Mellanox (迈络思) với giá 6,9 tỷ USD. Mellanox là công ty chuyên về công nghệ mạng InfiniBand. Từ những năm 1990 của thế kỷ trước, khi công nghệ siêu máy tính phân hóa theo hướng khác nhau, InfiniBand dần trở thành biểu tượng của mạng tốc độ cao. Việc mua lại này được xem là bước ngoặt mang tính biểu tượng trong lịch sử tính toán, giúp Nvidia chuyển đổi từ nhà sản xuất GPU thành công ty trung tâm dữ liệu AI, đồng thời tích hợp công nghệ mạng để giải quyết các nút thắt về truyền thông trong quá trình mở rộng năng lực AI.

Theo các chuyên gia trong ngành, người dùng tại thị trường Trung Quốc gặp nhiều khó khăn khi sử dụng mạng IB. Mặc dù IB là giao thức mở, nhưng về mặt công nghệ, thực tế nó bị Mellanox độc quyền. Thêm vào đó, chi phí, dịch vụ và phản hồi của họ cũng không đáp ứng được nhu cầu của khách hàng trong nước.

Về hiệu năng, theo lời đồn, các sản phẩm mạng scaleFabric400 của Trung Quốc đạt tiêu chuẩn kỹ thuật hoàn toàn tương đương với sản phẩm NDR của Nvidia.

Ông Vạn Vĩ, Tổng kỹ sư bộ phận sản phẩm mạng tốc độ cao của Trung tâm mạng liên kết của Trung Quốc cho biết, điểm cốt lõi của scaleFabric là hai chip mạng tốc độ cao tự phát triển. Trong đó, chip mạng của card mạng scaleFabric400 đạt băng thông 400G, sử dụng engine RDMA tự phát triển; chip chuyển mạch scaleFabric400 có khả năng chuyển đổi hai chiều 64T, dạng switch VCT, độ trễ chuyển tiếp thấp chỉ còn 260 nanosecond.

Ngoài ra, số lượng cổng của switch scaleFabric đạt tới 80 cổng 400G, so với switch NDR của Nvidia có 64 cổng, mật độ cổng tăng 25%, giúp giảm đáng kể chi phí xây dựng mạng của scaleFabric. Đồng thời, số lượng QP tối đa trên một card là 256K, tăng 100% so với NDR của Nvidia, quy mô liên kết mạng con là 2,33 lần so với IB truyền thống, dễ dàng hỗ trợ triển khai cụm 11.400 card lớn nhất, đồng thời tổng chi phí mạng giảm 30%.

“Dữ liệu thử nghiệm cho thấy, về cơ bản, scaleFabric có thể đạt mức tương đương với NDR của Nvidia, thậm chí một số dữ liệu còn vượt trội hơn NDR series. Hai loại chip này đều đạt tiêu chuẩn kỹ thuật toàn diện so với các sản phẩm NDR hiện tại của Nvidia,” ông Vạn Vĩ nói.

Về khả năng tương thích với mạng IB hiện có, theo giới thiệu, scaleFabric cung cấp giao diện nguyên bản, có thể hoàn toàn tương thích với các thư viện truyền thông khác nhau, thực hiện liên thông liền mạch với các ứng dụng HPC và AI, các mô hình lớn đều có thể chuyển trực tiếp sang hệ thống dựa trên scaleFabric mà không cần sửa đổi mã nguồn. Đồng thời, về mặt quản lý và bảo trì mạng, cũng phù hợp với thói quen sử dụng của người dùng IB.

Về khả năng tương thích phần cứng tính toán nội địa, ông Lý Bân, Phó Chủ tịch cao cấp của Trung tâm sáng tạo của Trung Quốc, cho biết trong cuộc phỏng vấn với báo chí của 《科创板日报》, rằng trước đó, scaleFabric đã thực hiện liên kết phù hợp với các chip tính toán khác nhau, trong tương lai sẽ khám phá các phương thức hiệu quả hơn, ví dụ như chip tính toán kết nối riêng biệt với card mạng qua liên kết hợp tác đặc thù, đồng thời thúc đẩy chia sẻ giao thức liên kết chip trong hệ sinh thái, khám phá các phương thức kết nối trực tiếp hiệu quả hơn với các chip của các nhà sản xuất khác.

Về mặt ứng dụng thực tế, hiện tại, scaleFabric đã được triển khai tại nút trung tâm Internet siêu máy tính quốc gia ở Trịnh Châu, hỗ trợ vận hành ba cụm trí tuệ quy mô 10.000 card của hệ thống scaleX, tổng quy mô lên tới 30.000 card.

Ông Lý Bân cho biết, khi sản phẩm được đưa vào các cụm trí tuệ quy mô cực lớn, tuyến đường công nghệ RDMA nguyên bản của nội địa Trung Quốc đang dần trưởng thành, hệ sinh thái ngành công nghiệp mạng hiệu suất cao dựa trên công nghệ này đang nhanh chóng hình thành.

Với việc ra mắt sản phẩm mạng IB toàn bộ hệ thống tự phát triển nội địa đầu tiên này, Trung tâm sáng tạo của Trung Quốc đã hợp tác cùng Lenovo KaiTian, ZTE, Damu Data, Ourecos, Lexun Technology, Jiuzhang Yunji và các đối tác ngành khác thành lập Ban chuyên trách tính toán hiệu suất cao, nhóm công tác mạng tốc độ cao AIDC.

Phó Chủ tịch của Shuguang Information Industry (北京)有限公司, bà Lý Liu cho biết: “Sau khi ra mắt công nghệ scaleFabric, trong tương lai, chúng ta còn phải dựa vào tổ chức tiêu chuẩn hóa, với thái độ mở, hợp tác với nhiều đối tác trong nước hơn, từ trung tâm dữ liệu AI, chip tăng tốc, thiết bị mạng đến các khung AI, thúc đẩy đổi mới sáng tạo ngành công nghiệp theo hướng hợp tác, xây dựng hệ sinh thái mạng AI.”

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.51KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.52KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.49KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.49KNgười nắm giữ:1
    0.00%
  • Ghim