Từ GPU đến LPU: Nvidia tấn công mạnh mẽ vào chip suy luận, Jensen Huang lại giành bước đột phá quan trọng

K-LinePoet · 2026-04-02T12:57:21+00:00

Ngành công nghiệp AI đang chuyển từ chế độ huấn luyện sang chế độ suy luận chính thống, Nvidia đã giới thiệu Groq 3 LPU tại GTC 2026, nhằm mở rộng thị trường chip suy luận, kết hợp với GPU Rubin để nâng cao hiệu suất rõ rệt. Sự trỗi dậy của các trí tuệ nhân tạo thúc đẩy sự thay đổi trong nhu cầu thị trường, Nvidia cũng đang thúc đẩy nâng cấp hệ sinh thái bằng cách ra mắt thiết kế tham khảo nhà máy AI. Nhìn chung, nhu cầu về chip suy luận sẽ ngày càng tăng, Nvidia và các doanh nghiệp khác đối mặt với cả cơ hội và thách thức cùng tồn tại.

K-LinePoet

2026-04-02 12:57:21

Đang tạo bản tóm tắt

Báo 华夏时报 phóng viên 石飞月 đưa tin từ Bắc Kinh

Hướng đi của ngành AI đã đổi thay. Vài năm trước, ai nấy đều ra sức “huấn luyện mô hình” — nhồi dữ liệu vào GPU, chờ nó mọc ra trí thông minh; lúc đó, GPU của NVIDIA là “ông vua” duy nhất, không ai lay chuyển được. Nhưng trong hai năm gần đây, các “tác tử thông minh” (intelligent agents) kéo nhau tràn vào thị trường: Manus bùng nổ ra mắt, OpenClaw phủ sóng khắp mọi nơi; các nhà cung cấp mô hình và nhà cung cấp dịch vụ đám mây bắt đầu kiếm tiền bằng cách bán token. Cerebras… giơ cờ “nhanh hơn, rẻ hơn”, xé toạc một khe hở trên bản đồ mà NVIDIA đã chiếm giữ nhiều năm.

Giới công nghiệp cuối cùng cũng nhận ra: việc huấn luyện vẫn tiếp tục, nhưng “suy luận” (inference) đã trở thành xu hướng chủ đạo. NVIDIA đương nhiên sẽ không bỏ lỡ cơ hội thị trường này; với chiếc “bánh suy luận” này, họ cũng phải cắt một miếng. Rạng sáng ngày 17/3 tại GTC 2026, CEO NVIDIA Hoàng Nhân Huân (Huang Renxun) trình làng vũ khí mới — Groq 3 LPU, đồng loạt tấn công thị trường chip suy luận. Đồng thời ông tung ra một loạt con số: đến cuối năm 2027, hai dòng sản phẩm Blackwell và Rubin sẽ đạt doanh thu hàng năm 1 nghìn tỷ USD, gấp đôi dự báo nửa năm trước.

** Vừa nắm huấn luyện vừa nắm suy luận **

Lần này, NVIDIA chính thức ra mắt nền tảng Vera Rubin, gồm 7 loại chip, lần lượt là: Rubin GPU, Vera CPU, ConnectX-9 SuperNIC, BlueField-4 DPU, NVLink 6 Switch, Spectrum-X 102.4T CPO và LPU Groq 3 tích hợp mới.

“LPU” viết đầy đủ là “Language Processing Unit”, tức là “đơn vị xử lý ngôn ngữ”; đây là một chip tăng tốc suy luận AI chuyên dụng. Rubin GPU kết hợp với Groq LPU sẽ đẩy thông lượng từ mức 100 token mỗi giây hiện nay lên 1500 token mỗi giây, thậm chí hơn nữa, từ đó hoàn toàn đáp ứng các tình huống tương tác của AI tác tử thông minh.

NVIDIA cũng ra mắt một giá máy hoàn chỉnh chuyên để chứa các bộ tăng tốc Groq thế hệ mới — Groq LPX. Theo giới thiệu của Phó chủ tịch cấp cao phụ trách điện toán quy mô lớn và hiệu năng cao của NVIDIA, Ian Buck, Groq LPX sẽ nâng cao hiệu năng giải mã “mỗi lớp của mô hình AI trên mỗi token”, đồng thời giúp Rubin phục vụ lĩnh vực tiên phong tiếp theo của trí tuệ nhân tạo: hệ thống đa tác tử (multi-agent systems). Những hệ thống này cần cung cấp hiệu năng tương tác trong khi đồng thời vận hành mô hình với hàng nghìn tỷ tham số suy luận, và làm việc trong cửa sổ ngữ cảnh với hàng triệu token.

NVIDIA nhắm tới thị trường chip suy luận không phải bắt đầu từ hôm nay, mà đã được chuẩn bị từ sớm. Tháng 12/2025, công ty đã mua lại tài sản công nghệ cốt lõi của Groq với giá khoảng 20 tỷ USD; người sáng lập của Groq gia nhập NVIDIA, và Groq 3 LPU là thành quả công khai đầu tiên sau thương vụ mua lại.

Dựa trên dự báo của mô hình từ bộ phận nghiên cứu đầu tư toàn cầu của Goldman Sachs, trong các chip AI của máy chủ AI, tỷ trọng xuất xưởng chip không phải GPGPU sẽ cho thấy xu hướng tăng rõ rệt; dự kiến sẽ tăng dần từ 36% năm 2024 lên 45% vào năm 2027. Trong khi đó, tỷ trọng xuất xưởng chip GPGPU dự kiến sẽ giảm dần từ 64% năm 2024 xuống 55% vào năm 2027.

Phân tích viên cấp cao của InSemi Research, Tần Phong Vỹ, cho biết với phóng viên của báo này rằng: GPU sẽ cạnh tranh hơn trong các tình huống yêu cầu cao hơn về huấn luyện mô hình nền tảng và tính phổ dụng (như dịch vụ đám mây công cộng), cũng như trong các kịch bản tính toán song song. Còn ASIC (bao gồm TPU, DPU, NPU, LPU…) lại tương đối có lợi hơn ở giai đoạn triển khai mô hình và trong kịch bản suy luận, vì các tình huống đó đòi hỏi cao hơn về hiệu suất năng lượng (energy efficiency), độ trễ phản hồi, v.v.

“Vì vậy, việc NVIDIA ra mắt LPU là một bố trí chiến lược để đáp ứng nhu cầu năng lực tính toán AI chuyển từ ‘huấn luyện’ sang ‘suy luận’; đây là một nước đi then chốt để bù đắp điểm yếu. Bằng cách bố trí sản phẩm tinh vi hơn, nó phản hồi những thay đổi của thị trường và thách thức từ đối thủ.” Viện trưởng Viện Nghiên cứu Công nghệ Sâu (深度科技研究院), Trương Hiếu Dung, nói với phóng viên của báo này.

Theo thông tin từ giới truyền thông, kế hoạch của NVIDIA nhằm đáp ứng nhu cầu suy luận đang tăng trưởng đã mang lại kết quả cho công ty. Tháng trước, OpenAI cho biết đã đạt thỏa thuận với NVIDIA để mua các chip có “năng lực suy luận chuyên dụng”.

** Nâng cấp hệ sinh thái từ chip đến nhà máy **

Trong vài năm qua, AI tạo sinh đã thổi bùng thị trường; huấn luyện mô hình quy mô lớn trở thành “hố đen” tiêu hao năng lực tính toán tuyệt đối. Nhờ sự thống trị tuyệt đối của GPU, NVIDIA đã hưởng phần lớn lợi ích từ làn sóng nóng này; kết quả kinh doanh và giá trị vốn hóa đều tăng vọt không ngừng, kiếm được đầy bát đầy bồ.

Tuy nhiên, khi cuộc so tài về tham số mô hình bước vào giai đoạn “hiệu ứng biên giảm dần” của nghẽn, việc huấn luyện mô hình quy mô lớn sau hai năm chạy nước rút cuối cùng đã chậm lại. Từ năm 2025, trục cạnh tranh bắt đầu lệch — các tác tử thông minh và kỹ thuật xử lý ngữ cảnh (context engineering) lên ngôi ở vị trí trung tâm. Tín hiệu rõ ràng nhất là: OpenClaw chiếm lĩnh nền tảng truyền thông xã hội, từ giới công nghệ “phá vòng” lan ra đến dòng thông tin của người bình thường.

Các tác tử thông minh là một trong những nhân tố quan trọng thúc đẩy nhu cầu thị trường suy luận tăng trưởng. Kịch bản cốt lõi của chúng thiên về suy luận hơn là huấn luyện; quan điểm này được nhiều nghiên cứu uy tín và phân tích trong ngành ủng hộ một cách rõ ràng. Vì vậy, khi năng lực AI chuyển từ giai đoạn huấn luyện mô hình nền tảng sang giai đoạn tiến hóa của các tác tử thông minh chú trọng xây dựng quy trình làm việc (workflow), trọng tâm nhu cầu năng lực tính toán AI đã chuyển từ huấn luyện sang suy luận.

Và với tư cách là “người chơi số một” trong cơ sở hạ tầng AI, NVIDIA cũng đương nhiên phải nắm bắt xu hướng thị trường để thay đổi — hơn nữa là nâng cấp trên toàn bộ cấp độ hệ sinh thái.

Tại đại hội GTC lần này, ngoài việc ra mắt LPU, NVIDIA còn phối hợp với đội ngũ do Peter Steinberger, người sáng lập OpenClaw, đại diện cùng một số thành viên khác; họ triệu tập một nhóm chuyên gia hàng đầu về an ninh và điện toán để cho ra mắt kiến trúc tham chiếu NeMoClaw. Kiến trúc này tích hợp công nghệ OpenShell, cơ chế phòng vệ mạng và khả năng định tuyến bảo mật riêng tư (privacy routing), giúp doanh nghiệp có thể vận hành hệ thống tác tử thông minh một cách an toàn trong môi trường riêng tư của mình.

Thậm chí NVIDIA còn giới thiệu thiết kế tham chiếu cho “nhà máy AI” Vera Rubin DSX, hướng dẫn mọi người cách thiết kế, xây dựng và vận hành toàn bộ ngăn xếp cơ sở hạ tầng của một nhà máy AI. Nó bao gồm điện toán, mạng NVIDIA Spectrum-XEthernet và lưu trữ, nhằm đạt hiệu năng cụm (cluster) có thể lặp lại, có thể mở rộng và tối ưu.

Hoàng Nhân Huân nói: “Trong thời đại AI, token thông minh là đồng tiền mới, còn nhà máy AI là cơ sở hạ tầng tạo ra những token đó. Thông qua thiết kế tham chiếu Vera Rubin DSX AI Factory và Omniverse DSX Blueprint (bản thiết kế song sinh kỹ thuật số), chúng tôi đang cung cấp nền tảng để xây dựng những nhà máy AI có năng suất sản xuất cao nhất trên thế giới, đẩy nhanh thời điểm có doanh thu đầu tiên, đồng thời tối đa hóa quy mô và hiệu suất sử dụng năng lượng.”

Còn sau khi ra mắt LPU, tỷ trọng GPU旗舰 của NVIDIA sẽ thay đổi thế nào? Phóng viên báo 华夏时报 đã phỏng vấn phía NVIDIA về vấn đề này, nhưng đến thời điểm đăng bài vẫn chưa nhận được phản hồi. “NVIDIA tiến vào thị trường chip suy luận không có nghĩa là mảng GPU sẽ bị tổn hại vì điều đó; ngược lại, nhờ sự phối hợp với LPU, sẽ mở ra không gian thị trường rộng hơn.” Trương Hiếu Dung nói.

Chuyên gia được mời của Quỹ Tư vấn chiến lược (智参智库) Viên Bác (袁博) cho biết: Trong ngắn hạn, GPU dựa vào khả năng thích ứng mạnh với các kịch bản và rào cản hệ sinh thái để dẫn dắt thị trường. Đặc biệt trong kịch bản huấn luyện AI, xét trong dài hạn, hai con đường này không hoàn toàn đối lập nhau, mà sẽ tiến tới hội nhập và phân tầng thị trường. “Về phần cứng, GPU sẽ tích hợp các lõi chuyên dụng mạnh hơn, còn chip chuyên dụng cũng sẽ tăng tính lập trình. Trên thị trường, dự kiến sẽ hình thành mô hình phân tầng: đổi mới do chip chuyên dụng chủ đạo và nền tảng phổ dụng, trong khi chip chuyên dụng đi sâu vào suy luận quy mô hóa.”

Trong thị trường ASIC, thực ra đã tập hợp sẵn một nhóm đối thủ của NVIDIA, bao gồm Cerebras ở nước ngoài và ở Trung Quốc là Hàn Vũ Kỷ (寒武纪), Huawei, Suiyuan Technology (燧原科技) v.v. Trương Hiếu Dung cho rằng việc NVIDIA tiến vào lĩnh vực chip suy luận đối với các doanh nghiệp trong nước vừa là thách thức vừa là chất xúc tác, sẽ hình thành một tình huống phức tạp vừa “bị ép sát” vừa “buộc phải tự dồn lực”. Điều này sẽ đẩy nhanh quá trình sàng lọc lại ngành và nâng cấp công nghệ.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.