Phỏng vấn Phó Chủ tịch Kinh doanh của NVIDIA: "Khoảnh khắc ChatGPT" của robot đang đến gần

MaticHoleFiller · 2026-03-23T00:01:31+00:00

# Dịch tiếng ViệtCó thể ngày hôm nay để hiểu rõ NVIDIA còn khó khăn hơn bao giờ hết, nhưng công ty này - những người có ảnh hưởng đến sự phát triển của nhiều lĩnh vực AI - vẫn đáng để khám phá xem họ đang vẽ ra tương lai của AI như thế nào.Những tín hiệu mở rộng kinh doanh của NVIDIA trở nên rõ ràng. Tại hội thảo GTC lần này, NVIDIA đã phát hành các sản phẩm bao gồm bộ tăng tốc độ trung tâm dữ liệu, giá đỡ, sản phẩm mạng và nhiều mô hình mã nguồn mở. CUDA, GPU, LPU (Đơn vị xử lý ngôn ngữ), AI Factory, Robotics, Tự lái xe, các mô hình mã nguồn mở và các từ khóa khác được CEO của NVIDIA Huang Renxun đề cập thường xuyên trong bài phát biểu của mình. Công ty nổi tiếng với GPU, bây giờ dường như định nghĩa chính xác hơn nó như một nhà sản xuất bao gồm nhiều khâu trong cơ sở hạ tầng AI hoặc AI Factory.Ngay cả chỉ trong khâu bộ tăng tốc độ trung tâm dữ liệu, các loại sản phẩm của NVIDIA cũng trở nên đa dạng. Ngoài GPU, nền tảng Rubin còn có một LPU

MaticHoleFiller

2026-03-23 00:01:31

Hiện tại có thể hiểu rằng Nvidia ngày nay có thể còn khó hơn trước, nhưng công ty này, nơi ảnh hưởng đến nhiều lĩnh vực AI phát triển, vẫn đáng để khám phá cách họ vẽ ra tương lai của AI.

Dấu hiệu mở rộng hoạt động của Nvidia đã rõ ràng hơn. Tại hội nghị GTC lần này, Nvidia giới thiệu các sản phẩm bao gồm bộ tăng tốc trung tâm dữ liệu, rack, sản phẩm mạng và nhiều mô hình mã nguồn mở. Các từ khóa như CUDA, GPU, LPU (đơn vị xử lý ngôn ngữ), nhà máy AI, robot, tự hành, mô hình mã nguồn mở thường xuyên được đề cập trong bài phát biểu của CEO Huang Renxun. Công ty nổi tiếng với GPU này nay có vẻ phù hợp hơn khi được định nghĩa là nhà cung cấp hạ tầng AI hoặc nhà máy AI, bao gồm nhiều phần khác nhau.

Ngay cả trong lĩnh vực bộ tăng tốc trung tâm dữ liệu, các loại sản phẩm của Nvidia cũng đa dạng hơn. Ngoài nền tảng Rubin, còn có thêm một LPU. Trước đây thuộc loại mạch tích hợp chuyên dụng (ASIC), LPU và GPU thông thường đứng ở các chiến tuyến khác nhau, nhưng sau khi Nvidia mua quyền cấp phép của Groq, hai loại chip này đã bắt đầu hợp tác.

Trong khi phần lớn doanh thu của Nvidia đến từ các khách hàng là các nhà cung cấp đám mây lớn, chiếm khoảng 60%, thì trong phần còn lại, chiếm khoảng 40%, có vẻ phức tạp hơn, Nvidia cũng đã mở rộng sang các lĩnh vực mới. Trong đó, tự hành và robot trong AI vật lý trở thành hai điểm nhấn quan trọng. Để triển khai AI vật lý, Nvidia không chỉ làm phần cứng mà còn phát triển nền tảng tự hành và các mô hình.

Hiểu về Nvidia ngày nay có thể còn khó hơn trước, nhưng cách công ty này vẽ ra tương lai của AI vẫn là điều đáng để khám phá. Trong hội nghị GTC, phóng viên của First Financial đã có các cuộc trò chuyện riêng với Ian Buck, Phó Chủ tịch phụ trách tính toán quy mô lớn và hiệu năng cao của Nvidia, và Rev Lebaredian, Phó Chủ tịch phụ trách Omniverse và công nghệ mô phỏng, nhằm hiểu rõ hơn về ý tưởng và cân nhắc của Nvidia trong một số sản phẩm, cũng như thảo luận về hiện tượng phân cấp chip, chiến lược của Nvidia cho AI vật lý, và lý do tại sao “giây phút ChatGPT của robot” đang đến gần.

Tại sao GPU vẫn chiếm ưu thế

Dựa trên công nghệ của Groq, tại GTC lần này Nvidia đã giới thiệu chip LPU Groq 3 và rack Groq 3 LPX. Theo giới thiệu, Groq 3 LPX khi kết hợp với CPU và GPU Rubin có thể tăng gấp 35 lần khả năng xử lý dự đoán trên mỗi megawatt, và sẽ tích hợp vào nhà máy AI Vera Rubin thế hệ tiếp theo trong nửa cuối năm nay.

Việc có thêm Groq 3 khiến GPU không còn là dạng duy nhất của bộ tăng tốc trung tâm dữ liệu của Nvidia. Trước đó, cách các dòng GPU đối mặt thách thức từ ASIC đã là chủ đề bàn luận lâu nay. Cuối năm ngoái, Nvidia đã ký thỏa thuận không độc quyền về sở hữu trí tuệ với Groq, đồng thời đưa các sáng lập viên của Groq như Jonathan Ross, Tổng giám đốc Sunny Madra và các thành viên chủ chốt khác về dưới trướng, được xem là cách ứng phó với thách thức thị trường. Đặc điểm nổi bật của Groq LPU là độ trễ thấp trong dự đoán. Việc đưa LPU vào danh mục sản phẩm của Nvidia có ý nghĩa gì?

Theo giải thích của Huang Renxun, mỗi token từ các mô hình khác nhau đều có đặc điểm riêng, đối với nhu cầu sản xuất token chính hiện nay, Rubin vẫn là một nền tảng quan trọng, nhưng đã xuất hiện các thị trường phân khúc mới. Khi mô hình lớn hơn, ngữ cảnh dài hơn, tốc độ dự đoán cần phải cực kỳ nhanh, kết hợp các chip mới có thể đáp ứng các yêu cầu tính toán đa dạng.

Ian Buck giải thích rằng, Groq 3 LPU có thể xem như là “gói nâng cấp” của Rubin. LPU sở hữu bộ nhớ SRAM cực nhanh, có thể thực hiện tính toán số thực nhanh chóng. Tuy nhiên, nó cũng có giới hạn; nếu chỉ dùng LPU để vận hành các mô hình có trăm tỷ tham số, có thể cần hàng chục rack, điều này khó mở rộng quy mô, chi phí cao và hiệu quả hạ tầng thấp. Nhưng nếu kết hợp một rack LPX, để LPU và rack Rubin làm việc phối hợp, có thể tận dụng đặc điểm của cả hai loại chip, để tất cả các tính toán chú ý có thể thực hiện trên GPU, còn các phép toán ma trận của mô hình chuyên gia có thể thực hiện trên LPU.

“Đối với các chatbot thế hệ hiện tại hoặc hệ thống đề xuất, phần lớn thị trường AI sẽ tiếp tục phục vụ bởi Rubin, LPU không thay thế các kịch bản này. Nhưng đối với các tác vụ trí tuệ nhân tạo thế hệ tiếp theo, trong các mô hình có trăm tỷ tham số, hàng trăm nghìn token ngữ cảnh, tốc độ hàng nghìn token mỗi giây, sự kết hợp của hai loại chip này trở nên khả thi,” Ian Buck nói.

Không chỉ Nvidia, các nhà cung cấp GPU khác như AMD cũng đang thử nghiệm các chip khác nhau trong trung tâm dữ liệu. Tháng 2 vừa qua, AMD ký hợp tác đặc biệt với Meta, trong đó có thiết kế chip bán tùy chỉnh. Trước đó, Giám đốc Sáng lập AMD, Su Zifeng, giải thích rằng hạ tầng AI ngày càng phức tạp, có nhiều loại tải công việc khác nhau, từ huấn luyện đến suy luận, từ mô hình lớn đến nhỏ, đều cần các loại tính toán khác nhau. “Trong giai đoạn tiếp theo của hạ tầng AI, không có một chip đơn lẻ nào có thể làm tốt tất cả mọi thứ, đây đã là một thế giới phân cấp. Người ta cũng cần xem xét giá trị mỗi watt năng lượng, mong muốn vận hành hiệu quả nhất có thể khi chạy nhiều tải AI. Tính toán luôn có chỗ cho ASIC,” suy nghĩ của Su Zifeng phù hợp với quan điểm của Huang Renxun về chi phí tính toán và đa dạng hóa tải công việc AI.

Tuy nhiên, khi chip hướng tới phân cấp, ASIC có thể sẽ ngày càng phổ biến và thách thức vị trí của GPU có khả năng lập trình và đa năng? Đặc biệt khi các sản phẩm ASIC phù hợp với một số tải công việc đặc thù có thể vượt trội về tốc độ và chi phí.

Theo Ian Buck, đây là vấn đề cân bằng giữa yêu cầu tính toán đặc thù và khả năng sáng tạo của nền tảng lập trình, liên quan đến mức độ các nhà sản xuất sẵn sàng thiết kế tùy biến. “Chúng tôi có thể làm chip ASIC riêng cho GPT-OSS, trong môi trường cực đoan, có thể làm chip dựa trên mô hình. Tôi tin rằng cách này sẽ hiệu quả. Nhưng mô hình và cách thực thi của nó sẽ bị cố định trong silicon, không còn cách nào tối ưu hơn nữa, kể cả phần mềm, khiến GPT-OSS không thể làm nhanh hơn, thông minh hơn hoặc mở rộng hơn,” ông nói.

Ian Buck kể rằng, một năm trước, Nvidia đã ra mắt DeepSeek-R1, và kể từ đó, hiệu suất của mô hình ngày càng cao hơn, vì toàn thế giới đã học các phương pháp mới và làm cho các mô hình hỗn hợp chuyên gia chạy hiệu quả hơn trên GPU. “Điều này khả thi vì các chip đều mở và có thể cấu hình, mọi người đã tìm ra các phương pháp mới để thực thi mô hình hỗn hợp chuyên gia, như tensor parallelism, wide expert parallelism, pipeline parallelism, và từ FP16 tiến tới FP8, FP4. Khả năng lập trình của nền tảng đã mở ra khả năng tăng hiệu năng gấp nhiều lần, giúp chạy nhanh hơn, giảm chi phí và tăng doanh thu.”

Ian Buck kể một ví dụ: 400 kỹ sư phần mềm của Nvidia đã dành khoảng 4 tháng, thực hiện 1,2 triệu giờ mô phỏng GPU, để giúp DeepSeek-R1 chạy nhanh hơn. Các kỹ sư đã tìm ra 38 phương pháp tối ưu phần mềm, giúp hiệu suất của DeepSeek-R1 trên cùng một GPU tăng gấp 4 lần, nghĩa là chỉ qua tối ưu phần mềm, lợi ích của DeepSeek-R1 đã tăng gấp 4 lần.

“Chúng tôi có thể tối ưu rất đặc thù cho các tải công việc khác nhau, thậm chí nhúng mô hình vào chip, nhưng như vậy sẽ bỏ lỡ cơ hội phát triển các thuật toán và công nghệ mới. Và chúng tôi nhận thấy, dựa trên nền tảng có thể lập trình, 95% các tối ưu và công nghệ sẽ phù hợp với mọi mô hình trong hệ sinh thái, giúp mô hình tiếp theo trở nên thông minh hơn,” ông nói.

Về việc liệu Groq có thể sẽ được đưa vào hệ sinh thái CUDA hay không, Ian Buck cho biết, dù thế hệ LPU đầu tiên chưa thể, nhưng sẽ mở rộng môi trường lập trình của LPU trong tương lai, và sẽ thảo luận về việc mở bằng CUDA hay các phương pháp khác.

Xây dựng nền tảng cho AI vật lý

Tại GTC lần này, Nvidia đã công bố nhiều thông tin về AI vật lý. Trong lĩnh vực robot, Nvidia giới thiệu khung mô phỏng Isaac, mô hình mã nguồn mở Cosmos và Isaac GROOT để phát triển, huấn luyện và triển khai robot, trong đó Cosmos 3 là mô hình nền tảng tổng hợp thế giới, sinh ra thế giới tổng hợp, suy luận vật lý AI và mô phỏng hành động. Trong tự hành, Nvidia ra mắt mô hình suy luận VLA (thị giác hành động ngôn ngữ) Alpamayo 1.5 để nâng cao khả năng suy luận của ô tô tự hành.

Trong lĩnh vực AI vật lý, Nvidia không chỉ cung cấp phần cứng tính toán mà còn triển khai ngày càng nhiều phần mềm, bao gồm cả việc mở nguồn mô hình và sâu hơn vào các tầng mô hình.

Rev Lebaredian cho biết, hiện tại, mở nguồn là rất quan trọng, Nvidia đã đầu tư lớn vào nghiên cứu và công nghệ mã nguồn mở, đặc biệt trong AI vật lý, vì không thể một công ty tự mình xây dựng AI vật lý hoàn chỉnh. Để robot có thể có giây phút ChatGPT, cần sự đóng góp của tất cả mọi người. Và vì Nvidia nằm ở trung tâm của AI, là người kết nối trong hệ sinh thái, nên công việc này bắt đầu từ Nvidia.

Về lý do phát triển các mô hình thế giới nền tảng, Rev Lebaredian giải thích rằng, mô hình ngôn ngữ lớn có thể lấy dữ liệu từ internet, AI sẽ tìm ra các mẫu ngôn ngữ, rồi con người cuối cùng sẽ có trí tuệ. Nvidia đang dùng các mô hình nền tảng thế giới để làm điều tương tự.

“Cách học của mô hình nền tảng thế giới dựa trên các định luật vật lý chứ không phải quy luật ngôn ngữ. Cosmos mở nguồn, cho phép bất kỳ công ty nào chạy trong máy tính và dùng cho nhiều mục đích, ngoài mô hình, Nvidia còn cung cấp dữ liệu, khung và bản thiết kế để tạo mô hình,” Rev Lebaredian nói. Lý do làm vậy là vì hiện tại còn rất xa mới hoàn thiện AI vật lý và robot, cần sức mạnh cộng đồng mở để thúc đẩy. Hiện nhiều nhà cung cấp mô hình thế giới đã dùng Cosmos để huấn luyện, đánh giá mô hình, giúp AI trở thành thầy của AI khác.

Về các giai đoạn phát triển của AI vật lý trong các lĩnh vực khác nhau, Rev Lebaredian cho biết, đối với ô tô tự hành, thách thức đã chuyển từ lĩnh vực khoa học sang kỹ thuật, chỉ là mở rộng quy mô và khám phá cách để ngày càng nhiều ô tô lên đường. Nhưng đối với robot đa năng, tình hình hoàn toàn khác, thách thức nằm ở mọi khía cạnh, ví dụ như vẫn chưa có thân hình robot tốt, chưa có tay tốt, phần vật lý vẫn cần cải thiện cảm biến, động cơ, pin.

Rev Lebaredian nói rằng, hiện tại, ngay cả khi xây dựng được thân hình robot hoàn hảo, robot cũng không dùng được, còn cần rất nhiều kỹ sư dành thời gian lập trình để robot làm những việc đơn giản. Ngành công nghiệp đang bước vào thời điểm rất quan trọng, có đủ công nghệ để làm cho trí tuệ của robot trở nên hữu ích, sắp vượt qua cột mốc quan trọng này, và giây phút ChatGPT của robot đang đến gần. Công nghệ và ứng dụng đã bắt đầu kết nối, ví dụ như khả năng suy luận giúp các tác nhân trong Cosmos tạo ra dữ liệu cần thiết để huấn luyện robot.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.