Wall Street nhận xét về GTC: Trong định nghĩa của Nvidia, sức mạnh tính toán chính là doanh thu, Token là hàng hóa lớn mới

Hỏi AI · Giảm mạnh chi phí Token thúc đẩy nhu cầu AI mở rộng như thế nào?

GTC hàng năm của NVIDIA đã phát đi một tín hiệu cốt lõi: Logic kinh doanh của sức mạnh tính toán AI đang diễn ra một cuộc tái cấu trúc căn bản — Token đã trở thành hàng hóa mới lớn, còn sức mạnh tính toán chính là doanh thu.

Ban lãnh đạo NVIDIA tại GTC này đã nâng dự báo doanh số bán trung tâm dữ liệu từ 500 tỷ USD (đến 2026) lên hơn 1 nghìn tỷ USD (tính từ 2025 đến 2027), đồng thời rõ ràng cho biết doanh số bán CPU Vera độc lập và giải pháp khung máy LPX sẽ được tính ngoài phạm vi này. Phố Wall xem sự kiện này như một sự xác nhận mạnh mẽ cho chu kỳ AI của NVIDIA.

Theo đài Chasing Wind, báo cáo mới nhất của JPMorgan chỉ ra rằng, con số này có nghĩa là, so với dự kiến đồng thuận của Phố Wall về doanh thu trung tâm dữ liệu năm 2026-2027 khoảng 970 tỷ USD, còn có ít nhất 50-70 tỷ USD dư địa tăng trưởng.

Báo cáo của Bank of America trực tiếp trích dẫn lời ban lãnh đạo NVIDIA — “Token là hàng hóa lớn mới, sức mạnh tính toán bằng doanh thu” — và chỉ ra rằng, hệ thống Blackwell đã giảm chi phí mỗi Token tới 35 lần so với thế hệ Hopper trước đó, trong khi dòng Rubin sắp ra mắt dự kiến sẽ giảm thêm 2-35 lần nữa, tùy thuộc vào loại tải công việc và cấu hình kiến trúc.

Trong khung câu chuyện của NVIDIA, đường cong liên tục thu hẹp chi phí Token này chính là động lực cốt lõi thúc đẩy mở rộng quy mô nhu cầu.

Dự báo rõ ràng hơn gấp đôi, khách hàng quy mô lớn và thị trường doanh nghiệp cùng thúc đẩy

Ban lãnh đạo NVIDIA tiết lộ, các đơn đặt hàng mua hệ thống Blackwell và Vera Rubin có độ tin cậy cao đã vượt quá 1 nghìn tỷ USD, gấp đôi so với con số 500 tỷ USD được công bố tại GTC trung tâm dữ liệu tháng 10 năm 2025. Đồng thời, ban lãnh đạo cho biết, các đơn hàng bổ sung và tồn đọng năm 2027 dự kiến sẽ tiếp tục tích lũy trong vòng 6-9 tháng tới.

Cấu trúc nhu cầu ngày càng đa dạng: Khoảng 60% đến từ các nhà cung cấp đám mây quy mô siêu lớn (nội bộ chuyển đổi từ tải công việc AI đề xuất/tìm kiếm sang mô hình ngôn ngữ lớn), phần còn lại khoảng 40% phân bổ cho các doanh nghiệp AI gốc đám mây CUDA, đối tác đám mây của NVIDIA, AI chủ quyền và khách hàng công nghiệp/doanh nghiệp.

Bank of America chỉ ra rằng, triển vọng 1 nghìn tỷ USD mới này phù hợp với dự báo trước đó của Phố Wall về doanh thu trung tâm dữ liệu trong 3 năm khoảng 970 tỷ USD, xác nhận logic này giống như cách xác nhận dự báo 450 tỷ USD của phiên bản cũ 500 tỷ USD tháng 10 năm 2025.

Điều đáng chú ý là, ban lãnh đạo NVIDIA trong sự kiện này đã dành phần lớn thời gian để trình bày về nhu cầu tăng tốc tải công việc truyền thống của doanh nghiệp.

NVIDIA công bố hợp tác với IBM (đẩy nhanh WatsonX), Google Cloud (tăng tốc BigQuery, tiết kiệm khoảng 76% chi phí cho Snap), Dell (nền tảng dữ liệu AI), và ra mắt hai thư viện cơ bản CUDA-X là cuDF và cuVS.

JPMorgan cho rằng, hướng đi này “bị thị trường đánh giá thấp nghiêm trọng” — lý do là, Định luật Moore đã bắt đầu mất hiệu lực, tăng tốc chuyên dụng lĩnh vực là con đường khả thi duy nhất, điều này sẽ mở rộng thị trường có thể tiếp cận của NVIDIA ra ngoài chu kỳ huấn luyện/phân tích AI.

Tích hợp Groq LPU: Ra mắt sản phẩm mới quan trọng nhất về kiến trúc

JPMorgan đánh giá việc tích hợp Groq 3 LPU với Vera Rubin là “sản phẩm mới quan trọng nhất về kiến trúc” tại GTC này.

Cấu trúc giải thích tách rời này kết hợp GPU Rubin (tốc độ cao, 288GB HBM4, băng thông 22TB/s, 50 PFLOPS NVFP4) với LPU của Groq (giải mã độ trễ thấp, SRAM 500MB, băng thông SRAM 150TB/s, 1.2 PFLOPS FP8): dự kiến pre-fill hoàn tất trên Rubin, phần giải mã chú ý cũng chạy trên Rubin, còn mạng feedforward/tạo Token sẽ được offload sang LPU của Groq.

Khung máy LPX tích hợp 256 LPU, cung cấp 128GB SRAM tổng hợp, băng thông bộ nhớ 40PB/s và khả năng suy luận 315 PFLOPS, dự kiến ra mắt quý 3 năm 2026.

Ban lãnh đạo NVIDIA cho biết, đối với tải công việc yêu cầu tốc độ Token cực cao (tạo mã, tính toán kỹ thuật, suy luận dài ngữ cảnh), khoảng 25% công suất trung tâm dữ liệu sẽ phân bổ cho LPX, phần còn lại 75% dành cho cấu hình Vera Rubin NVL72 thuần túy.

Dữ liệu của Bank of America cho thấy, hệ thống Rubin kết hợp với LPX SRAM sẽ nâng cao hiệu quả cho tải công việc độ trễ thấp cao cấp tới 35 lần so với thế hệ trước. JPMorgan nhận định, kiến trúc này trực tiếp giải quyết mâu thuẫn căn bản giữa tối ưu hóa thông lượng (giới hạn bởi FLOPS) và độ trễ (giới hạn bởi băng thông), giúp NVIDIA cạnh tranh hiệu quả trong thị trường suy luận cao cấp mà trước đây chỉ có các nhà sản xuất ASIC truyền thống chiếm ưu thế.

Cáp quang và CPO cùng thúc đẩy, không đặt cược vào một tuyến đường duy nhất

Ban lãnh đạo NVIDIA tại hội nghị đã phản hồi trực diện về cuộc tranh luận giữa cáp đồng và quang học tích hợp (CPO), xác nhận sẽ thúc đẩy song song hai hướng.

Hiện tại, thế hệ Vera Rubin, khung Oberon mở rộng bằng cáp đồng đến NVL72, mở rộng quang học đến NVL576; switch Ethernet quang hợp Spectrum-6 SPX đã sản xuất hàng loạt, do NVIDIA và TSMC hợp tác phát triển, ban lãnh đạo cho biết, hiệu quả tiêu thụ năng lượng của công nghệ quang này cao hơn 5 lần so với các bộ phát thu quang rời truyền thống, độ bền cao hơn 10 lần.

Với Rubin Ultra (cuối năm 2027), khung Kyber sẽ mở rộng bằng cáp NVLink (tối đa 144 GPU), đồng thời cung cấp giải pháp trao đổi NVLink dựa trên CPO như phương án dự phòng. Feynman (2028) sẽ hỗ trợ đồng thời cáp đồng và CPO, đi kèm Spectrum-7 (204T, CPO) để mở rộng theo chiều ngang.

Bank of America nhấn mạnh, việc khách hàng lựa chọn sử dụng switch mở rộng CPO hoặc cáp đồng là hoàn toàn tùy chọn, khách hàng có thể tiếp tục dùng cáp đồng cho đến khi cảm thấy phù hợp. JPMorgan cho rằng, hai tuyến đường này phù hợp với dự đoán trước đó của họ, dự kiến cáp đồng sẽ tiếp tục chiếm ưu thế trong cấu hình NVL72/NVL144 ít nhất đến năm 2027, còn CPO sẽ dần mở rộng thị phần trong mở rộng theo chiều ngang và cấu hình NVL576+.

Vera CPU: Nguồn doanh thu mới hàng chục tỷ USD dành cho AI thông minh

Ban lãnh đạo NVIDIA tại hội nghị đã rõ ràng khẳng định, CPU Vera sẽ trở thành “một lĩnh vực doanh thu hàng chục tỷ USD”, Bank of America chỉ ra rằng dòng doanh thu này chưa được thị trường kỳ vọng hiện tại phản ánh, là nguồn đóng góp gia tăng.

Vera CPU trang bị 88 nhân ARM Olympus tự phát triển, hệ thống bộ nhớ LPDDR5X cung cấp băng thông 1.2TB/s (tiêu thụ năng lượng chỉ bằng một nửa CPU máy chủ truyền thống), và kết nối GPU qua NVLink-C2C với tốc độ 1.8TB/s (gấp 7 lần PCIe Gen 6). Khung máy Vera CPU tích hợp 256 CPU làm mát bằng dung dịch, hỗ trợ hơn 22.500 môi trường CPU đồng thời.

Ban lãnh đạo nhấn mạnh, CPU đang trở thành nút thắt của mở rộng AI thông minh — học tăng cường và quy trình AI thông minh cần nhiều môi trường CPU để thử nghiệm và xác nhận đầu ra của mô hình GPU. Meta đã triển khai quy mô thế hệ Grace CPU trước đó, Vera dự kiến thay thế vào năm 2027.

JPMorgan định tính dòng doanh thu CPU này là lợi nhuận cao, có thể lặp lại (cùng với khung máy GPU triển khai trong các nhà máy AI), và có mối liên hệ cấu trúc với đường cong AI thông minh mà NVIDIA đang chủ động thúc đẩy.

Lộ trình sản phẩm kéo dài đến 2028, nhịp kiến trúc hàng năm tiếp tục tăng cường

NVIDIA nhắc lại nhịp ra mắt nền tảng hàng năm: Blackwell (2024) → Blackwell Ultra (2025) → Rubin (2026) → Rubin Ultra (2027) → Feynman (2028).

Rubin Ultra sẽ dùng cấu hình GPU 4 chip, trang bị 1TB HBM4e, bổ sung chip LPU LP35 (lần đầu giới thiệu khả năng tính toán NVFP4), khung Kyber hỗ trợ tối đa 144 GPU mỗi NVLink (đợt thứ 7 của NVLink, 3.6Tb/s mỗi GPU, băng thông tổng hợp NVL576 1.5Pb/s).

Chi tiết của Feynman vượt xa dự đoán thị trường:

GPU mới dùng quy trình TSMC A16 (1.6nm), tích hợp ghép chip và HBM tùy chỉnh; CPU mới tên là Rosa (theo tên Rosalind Franklin), thiết kế dành riêng cho phối hợp tải công việc AI gồm GPU, LPU, lưu trữ và mạng; LPU mới tên là LP40, do nhóm Groq nội bộ hợp tác phát triển; còn có DPU BlueField-5, card mạng siêu tốc ConnectX-10, NVLink 8 và Spectrum-7 (204T, CPO).

JPMorgan cho rằng, nền tảng tích hợp theo chiều dọc của NVIDIA (hiện đã gồm bảy chip, năm hệ thống khung máy và phần mềm đi kèm) khó bị sao chép, tốc độ tăng trưởng nhu cầu suy luận, mở rộng tải công việc truyền thống và sự mở rộng có cấu trúc của thị trường có thể tiếp cận, cùng với việc mở rộng liên tục của khách hàng, đều hỗ trợ một chu kỳ chi tiêu vốn AI bền vững hơn so với dự đoán hiện tại của thị trường.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim