Huang Renxun tuyên bố thời đại suy luận đã đến, LPU sẽ mang lại biến số mới nào?

Question

Vào ngày 16 tháng 3 theo giờ địa phương, CEO NVIDIA Hoàng Nhân Hoan (Jensen Huang) đã công bố một nền tảng tính toán mới dành cho AI tác tử tại sự kiện GTC—NVIDIA Vera Rubin.

Nền tảng này giống như một bộ “trang bị tính toán” siêu cấp, bao gồm nhiều thành phần cốt lõi, như Vera CPU (bộ xử lý trung tâm), Rubin GPU (bộ xử lý đồ họa), bộ chuyển mạch NVLink 6, ConnectX-9 SuperNIC (card mạng siêu), BlueField-4 DPU (bộ xử lý dữ liệu), và Spectrum-6 (bộ chuyển mạch Ethernet), cùng với Groq 3 LPU mới (đơn vị xử lý ngôn ngữ).

Nói đơn giản, đây là một tổ hợp phần cứng hoàn chỉnh được chế tạo riêng cho AI, giúp việc tính toán nhanh hơn và “thông minh” hơn.

Trong đó, NVIDIA cũng ra mắt Groq 3 LPX dạng rack được thiết kế cho triển khai quy mô lớn. Điều này có nghĩa là nó có thể ghép hàng trăm LPU lại với nhau, phối hợp như một “siêu bộ não” để đạt tốc độ suy luận cực nhanh và năng lực xử lý khối lượng văn bản khổng lồ. Rack này trang bị 256 LPU, kèm bộ nhớ lưu trữ tốc độ cao trên chip 128GB, tốc độ truyền lên tới 640 TB/s.

Theo đánh giá của các chuyên gia trong ngành, điểm sáng của lần ra mắt này không chỉ nằm ở việc nâng cấp chip, mà còn ở bước nhảy vọt về mật độ tích hợp hệ thống. Ông Trang Chàng Lỗi, Giám đốc nhóm AI/Sản xuất thông minh tại Quỹ Vân Khưu Vốn (Yunxiu Capital AI/智能制造组) khi trả lời phỏng vấn phóng viên của Báo Kinh tế Thế kỷ 21 cho biết: “Thay đổi lớn nhất là NVIDIA đã chính thức nâng LPU từ một chip đơn lẻ hoặc card tăng tốc, lên thành một hệ thống rack cấp cao ngang hàng với GPU.”

Đặc biệt, số lượng LPU trong rack LPX đã tăng từ 64 chiếc của thế hệ đầu tiên lên 256 chiếc chỉ trong một bước—mức nhảy về mật độ này vượt xa kỳ vọng của ngành, đồng thời phản ánh nhu cầu cấp bách của thị trường đối với suy luận văn bản dài với độ trễ cực thấp.

Trang Chàng Lỗi nhận định rằng điều này đánh dấu việc tính toán AI đang chuyển từ “chủ yếu để huấn luyện” sang “kết hợp huấn luyện + suy luận”, và suy luận đang trở thành một cơ sở hạ tầng mới ở cấp hệ thống.

Tập trung cho suy luận

LPU là kiến trúc chip mới được thiết kế riêng cho các tác vụ tính toán nặng theo dạng tuần tự. Mục tiêu cốt lõi là tối ưu hiệu quả suy luận của mô hình ngôn ngữ thông qua đổi mới kiến trúc.

Về kiến trúc, mỗi Groq 3 LPU tích hợp 500 MB SRAM: một trong những phần tử cốt lõi của LPU là khối MEM (MEM block). Đây là kiến trúc bộ nhớ phẳng, ưu tiên SRAM. Trong đó, 500 MB SRAM tốc độ cao trên chip đóng vai trò là bộ nhớ làm việc chính cho suy luận.

（Nguồn ảnh: website chính thức của NVIDIA）

Trình biên dịch và runtime đưa tập công việc đang hoạt động (bao gồm trọng số, activation và trạng thái KV) vào bộ nhớ trên chip và di chuyển dữ liệu một cách tường minh, thay vì phụ thuộc vào bộ nhớ đệm do phần cứng quản lý. Điều này giúp giảm độ trễ không thể đoán trước, đồng thời hỗ trợ cung cấp độ trễ thấp và ổn định bằng cách đưa những dữ liệu nhạy nhất với độ trễ tiến gần vị trí tính toán.

Trang Chàng Lỗi cho biết lợi thế cốt lõi của Groq LPU không chỉ là nhanh, mà còn là độ trễ “mỗi lần đều nhanh như nhau”—tính xác định. Thiết kế kiến trúc này với thời gian xác định (Timing Deterministic) đòi hỏi tùy biến sâu cho đường ống xử lý tính toán, truy cập bộ nhớ và trình biên dịch, nên rào cản kỹ thuật là cực cao.

Đối với các kịch bản như điều khiển công nghiệp, lái xe tự động… vốn có yêu cầu nghiêm ngặt về thời gian thực, “tính xác định” này là nhu cầu bắt buộc. Trong khi đó, kiến trúc GPU phổ thông và các ASIC do nhà cung cấp cloud thiết kế dựa trên bộ lệnh giản lược đều rất khó đạt được mức độ “xác định” tối cực như vậy, đồng thời vẫn đảm bảo tính linh hoạt.

Nghiên cứu của Chứng khoán Hoa Thái chỉ ra rằng, so với CES hồi tháng 1, lần này tại GTC, định vị của Groq LPU trong toàn bộ dòng sản phẩm của NVIDIA đã trở nên rõ ràng hơn. NVIDIA dự định tận dụng đặc tính độ trễ thấp của LPU để đáp ứng các ứng dụng có yêu cầu cao về tính tương tác như Agent AI.

Trang Chàng Lỗi cũng cho biết tương tự: khi nút thắt độ trễ của phần cứng bị phá vỡ, người thiết kế mô hình sẽ có thêm tự tin để khám phá AI tương tác thời gian thực hơn và phức tạp hơn. Ví dụ, hiện tại Agent AI có thể vẫn cần vài giây để suy nghĩ; tương lai có thể sẽ thực sự đạt phản ứng ở mức mili giây. Mô hình sẽ không còn “lắp chữ”, mà sẽ trò chuyện với bạn một cách mượt mà, thời gian thực như một con người.

Kỷ nguyên quang silicon bắt đầu

Ngoài rack NVIDIA Groq 3 LPX, điểm nhấn lớn thứ hai của nền tảng Rubin là rack Ethernet quang silicon NVIDIA Spectrum-6 SPX.

Với công nghệ quang silicon Spectrum-X Ethernet của gói tích hợp quang-điện một mảnh (CPO), so với các bộ thu phát cắm rút truyền thống, hiệu suất năng lượng quang học tăng tối đa 5 lần và độ tin cậy hệ thống tăng 10 lần.

“Scale-Out (liên kết giữa các tủ/rack) là phần gia tăng rõ ràng nhất hiện nay.” Trang Chàng Lỗi cho biết nền tảng Rubin đã bắt đầu đưa vào các switch CPO để giải quyết bài toán truyền tải “dòng lũ dữ liệu” giữa số lượng lớn các tủ rack trong trung tâm dữ liệu. Dự kiến năm 2027 sẽ là một mốc thời gian quan trọng cho việc CPO được triển khai theo quy mô lớn.

Tại GTC, NVIDIA cũng tiết lộ rằng sau Vera Rubin, kiến trúc quan trọng tiếp theo của NVIDIA là Feynman. Kiến trúc này sẽ bao gồm một CPU mới: NVIDIA Rosa.

Trong đó, Rosa là lõi của nền tảng mới. Nền tảng này kết hợp LPU LP40 thế hệ mới của NVIDIA với NVIDIA BlueField-5 và CX10, đồng thời thực hiện mở rộng theo chiều dọc cho kết nối cáp đồng và gói tích hợp quang-điện thông qua NVIDIA Kyber, cũng như mở rộng theo chiều ngang ở mức quang học tương đương NVIDIA Spectrum.

“Scale-Up (trong nội bộ tủ/rack / giữa các chip) là điểm nhìn mang tính tiên phong hơn.” Trang Chàng Lỗi cho biết trong kiến trúc Feynman, NVIDIA dự định đưa vào NVLink 8 CPO để thực hiện “ánh sáng đi vào tủ”, tức là dùng kết nối quang để thay thế một phần kết nối bằng backplane đồng truyền thống, từ đó kết nối trực tiếp GPU với LPU. Điều này có nghĩa là kết nối quang đang dần tiến từ các switch ở rìa xa vào bên trong các tủ rack trung tâm của tính toán.

Theo quan điểm của Trang Chàng Lỗi, mô-đun quang như “mạch máu” của kết nối năng lực tính toán, giá trị của nó đang tiếp tục tăng lên khi quy mô cụm tác tử (agent cluster) mở rộng. Khi CPO từ phòng thí nghiệm đi vào thương mại hóa quy mô, kỷ nguyên quang silicon đã được mở ra; điều này sẽ trực tiếp thúc đẩy nâng cấp toàn bộ chuỗi công nghiệp phần cứng truyền thông.

Nhu cầu PCB cấp cao có thể sẽ bùng nổ

Như đã nêu trước đó, để đáp ứng nhu cầu về độ trễ thấp và ngữ cảnh dài của hệ thống tác tử, NVIDIA cũng đã giới thiệu rack tăng tốc suy luận Groq 3 LPX, bao gồm 40Bộ xử lý LPU. Khi kết hợp với Vera Rubin, thông lượng suy luận trên mỗi megawatt có thể tăng 35 lần.

Trong khi đó, việc xuất hàng LPU/LPX theo dạng rack sẽ tạo tác động mang tính lật đổ đối với ngành PCB, và có thể là hạng mục vượt ngoài kỳ vọng lớn nhất của toàn bộ chuỗi ngành.

PCB, tức bo mạch in, là nền tảng kết nối điện giữa các linh kiện điện tử với nhau, và đã thâm nhập vào hầu như mọi thiết bị điện tử. Là động cơ cốt lõi của sản xuất điện tử toàn cầu, ngành PCB của Trung Quốc đang tăng trưởng mạnh mẽ.

Nhờ các lợi thế như quản lý chi phí, tiêu chuẩn thân thiện môi trường, và mức độ hỗ trợ đồng bộ của chuỗi cung ứng, hiện giá trị sản xuất của ngành PCB tại Trung Quốc đại lục chiếm hơn 50% toàn cầu, đồng thời hình thành các cụm công nghiệp như Vịnh Bột Hải, khu vực Châu Giang (Pearl River Delta) và Đồng bằng sông Trường Giang (Yangtze River Delta).

Xét từ góc độ thượng nguồn và hạ nguồn, khi nhu cầu AI bùng nổ, vốn của nhà cung cấp cloud tiếp tục được bổ sung và nâng cấp, kéo theo việc mua sắm máy chủ AI, thiết bị lưu trữ và thiết bị mạng. Cổ phiếu Tín dụng Kiến Tân (CITIC Securities) tính toán rằng, năm 2025, thị trường PCB tương ứng với máy chủ GPU+ASIC vượt 90Bỷ, năm 2026 vượt 700kỷ, và tốc độ tăng trưởng đã gấp đôi.

“Hiện ngành PCB cho máy chủ AI toàn cầu đang ở trạng thái thiếu hụt cung-cầu khoảng 20%.” Trang Chàng Lỗi thẳng thắn.

Theo Trang Chàng Lỗi, khi rack LPU/LPX bước vào giai đoạn cao điểm sản xuất hàng loạt vào cuối năm 2026 đến năm 2027, nhu cầu đối với PCB cấp cao sẽ có xu hướng bùng nổ. “Nó sẽ tiếp tục làm trầm trọng hơn tình trạng thiếu cung PCB cấp cao như HDI cao và PCB nhiều lớp, thúc đẩy toàn bộ chuỗi công nghiệp PCB bước vào một chu kỳ mở rộng công suất và nâng cấp mới.”

Ví dụ, do bên trong rack LPU/LPX cần xử lý luồng dữ liệu khổng lồ và giao tiếp độ trễ cực thấp, yêu cầu đối với số lớp PCB, vật liệu và quy trình là vô cùng cao. Lấy ví dụ rack LPU của NVIDIA: giá trị PCB của một bo mạch chủ có thể lên tới 6000 USD, còn một rack hoàn chỉnh thì tổng giá trị PCB lên tới 96k USD (tương đương gần 700k nhân dân tệ). Điều này cao hơn 10 lần so với giá trị PCB của máy chủ AI truyền thống.

Ngoài ra, để đáp ứng truyền tải tín hiệu tốc độ 224Gbps trở lên và hỗ trợ kết nối tốc độ cao cho 256 LPU, PCB bắt buộc phải sử dụng vật liệu nền và thiết kế cấp cao hơn. Về vật liệu, nền thông thường không thể đáp ứng yêu cầu, phải nâng cấp lên tấm đồng phủ cấp M9 (M9 grade copper-clad laminate). Vật liệu gia cường cũng chuyển từ vải sợi thủy tinh điện tử (e-glass) thông thường sang vải Q-glass có giá trị gấp 10 lần. Sản phẩm thế hệ tiếp theo thậm chí đã bắt đầu thử nghiệm vật liệu M10.

Trang Chàng Lỗi cho biết: trong kiến trúc Rubin Ultra, thậm chí còn đưa vào phương án backplane trực giao. Thông qua PCB 78 lớp, GPU và NVSwitch được kết nối trực tiếp, giúp giảm đáng kể việc sử dụng cáp đồng. Điều này cho thấy PCB đang thay thế một phần vai trò của các dây cáp truyền thống, trở thành “khung xương” cho kết nối liên thông bên trong rack.

Huang Renxun tuyên bố thời đại suy luận đã đến, LPU sẽ mang lại biến số mới nào?

Chủ đề thịnh hành

GateSquareAprilPostingChallenge

WeekendCryptoHoldingGuide

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Gate Fun hot

RRLX

ROOT RLX

oil

oil

HORMUZ

HORMUZ

pa cion

pa cion

JUMPC

Jump Coin

Ghim