Nvidia, Alibaba Reassess AI, Toss FLOPS Into the Trash Heap

2026-03-18 12:06:11

Vào ngày 17 tháng 3, Jensen Huang đã có hơn hai giờ trình bày trên sân khấu của NVIDIA GTC 2026, mặc chiếc áo khoác da đặc trưng. Sau buổi diễn, hầu như toàn bộ mạng xã hội đều bàn tán về việc “NVIDIA sắp trở thành vua của Token”.

Tuy nhiên, nếu nghe kỹ bài phát biểu này, bạn sẽ nhận ra rằng điều Jensen Huang thực sự nhấn mạnh không phải là Token bản thân, mà là Tokens per Watt (số Token trên mỗi Watt). Khi trình bày biểu đồ hiệu năng suy luận, ông đã rõ ràng đề cập đến khái niệm này và thẳng thắn nói rằng: mỗi trung tâm dữ liệu, mỗi nhà máy AI đều bị giới hạn bởi điện năng; một nhà máy 1GW sẽ không bao giờ trở thành 2GW, đó là quy luật vật lý. Trong phạm vi công suất cố định, ai có sản lượng Token trên mỗi Watt cao nhất, thì chi phí sản xuất thấp nhất, và đường doanh thu của họ sẽ dốc nhất.

Đây mới chính là điểm mấu chốt thực sự của toàn bộ GTC 2026.

Thật ra, dư luận đang say mê bàn luận về Vera Rubin mạnh gấp bao nhiêu lần Blackwell, Groq LPX có thể đẩy nhanh tốc độ suy luận lên 35 lần, NVIDIA muốn đưa trung tâm dữ liệu lên không gian. Những điều này tất nhiên quan trọng, nhưng về bản chất, chúng đều là cách thể hiện khác nhau của cùng một logic: dưới hạn chế về năng lượng, tối đa hóa hiệu quả trí tuệ trên mỗi Watt điện.

Khi Jensen Huang lấy “Tokens/W” làm thước đo trung tâm cho sản lượng của nhà máy AI, thực ra còn ẩn chứa một ý nghĩa sâu xa hơn trong ngành công nghiệp, đó là hệ thống đo lường cạnh tranh về sức mạnh tính toán đang chuyển từ chip sang hệ thống, từ các tham số đỉnh cao sang hiệu quả năng lượng toàn diện từ đầu đến cuối, từ việc ai có chip nhanh hơn sang ai có thể chuyển đổi năng lượng thành trí tuệ hiệu quả hơn.

Trong bối cảnh các sản phẩm và ma trận công nghệ hiện tại, NVIDIA và Jensen Huang vẫn còn bị giới hạn bởi token/w, để thực sự trở thành vua của Token, còn phải tiến thêm nhiều bước nữa.

Đây là một cuộc chuyển đổi “ngôn ngữ đo lường trí tuệ”, và sự chuyển đổi này mở ra một góc nhìn ngành công nghiệp còn đáng để thảo luận sâu sắc hơn bất kỳ một chip mới nào.

Trùng hợp thay, ngay trước ngày khai mạc chính thức của GTC, Alibaba đã công bố thành lập Alibaba Token Hub, do Wu Yongming trực tiếp đứng đầu. Trung tâm AI của Alibaba không mang tên AI, mà là Token, nâng cấp Token lên tầm chiến lược AI của Alibaba.

Điều này cũng phản ánh rõ ràng rằng, nhìn AI từ góc độ hệ thống đã dần trở thành nhận thức mới của ngành. Đây chính là lý do mà bài viết này muốn nhấn mạnh, cũng là ý nghĩa của toàn bộ bài viết.

01 Những thay đổi đáng chú ý nhất tại GTC 2026 không nằm ở chính chip

GTC 2026, mọi người vẫn tập trung vào các sản phẩm mới như Vera Rubin, Rubin POD, LPX, DSX AI Factory cùng các thuật ngữ mới. Nhưng nếu nhìn chung các công bố này, sẽ thấy rằng nó đã mở rộng câu chuyện cạnh tranh về sức mạnh tính toán từ mức độ của một chip đơn lẻ lên đến cấp độ hạ tầng tính toán, tức là toàn bộ hệ thống AI gồm tính toán, mạng lưới, lưu trữ, điện năng, làm mát, hệ thống điều khiển và phần mềm.

Rubin được mô tả như một nền tảng POD-scale, gồm nhiều rack hợp thành một hệ thống quy mô lớn, đồng bộ; còn DSX được định nghĩa là thiết kế tham khảo dành cho nhà máy AI, mục tiêu là tối đa hóa Tokens trên mỗi Watt.

Điều này cho thấy, cuộc cạnh tranh thực sự trong ngành sẽ chuyển từ việc một chip có sức mạnh tính toán cao đến khả năng của toàn bộ hệ thống tính toán, cụ thể hơn nữa là khả năng tổ chức hiệu quả các nguồn lực điện năng, làm mát và mạng lưới hạn chế thành sản lượng AI ổn định.

Về đơn vị đo lường cụ thể, chính là Tokens trên mỗi Watt (Token/W).

Bài viết hy vọng qua thước đo Tokens/W này, có thể hiểu rõ hơn ý nghĩa của các công bố tại sự kiện, cũng như cơ hội phát triển ngành hạ tầng AI của chúng ta.

02 Khi đối tượng cạnh tranh chuyển sang hệ thống, hệ thống đo lường không thể dừng lại ở chip

Hệ thống đo lường thời kỳ chip đã quá quen thuộc. Các chỉ số như đỉnh cao sức mạnh tính toán Flops, băng thông bộ nhớ, FLOPS/W, TOPS/W, bit/J đều rất quan trọng vì chúng mô tả giới hạn khả năng của một thành phần.

Điều này dẫn đến thực tế là trong thực hành, chúng ta gặp phải một tình huống khá khó xử: trong trung tâm trí tuệ nhân tạo, không có một đơn vị đo lường khách quan, thống nhất và phổ quát.

Thông thường, để đo lường trung tâm dữ liệu, người ta dùng đơn vị MW về điện năng; còn khi xây dựng trung tâm trí tuệ tại Trung Quốc, dùng đơn vị sức mạnh tính toán PFlops (dựa trên FP16). Tuy nhiên, cùng một tập hợp sức mạnh hoặc điện năng, nếu bên trong chip, mạng lưới, hệ thống làm mát khác nhau, hiệu năng cũng sẽ khác biệt lớn.

Nguyên nhân không phức tạp, các đơn vị đo lường trước đây chỉ đo lường một khía cạnh nhất định: đỉnh cao sức mạnh mô tả khả năng tính toán lý thuyết của một chip; bit/J mô tả hiệu quả năng lượng của việc vận chuyển dữ liệu cục bộ; băng thông thể hiện khả năng truyền tải thông tin của một hệ thống con. Tất cả đều là các thước đo theo từng khía cạnh của chip.

Nhưng một hệ thống AI hoàn chỉnh cuối cùng cần trả lời câu hỏi: Trong giới hạn ngân sách công suất, điều kiện làm mát cố định, và hạn chế về phòng máy, thì có thể chạy ra kết quả AI hiệu quả đến mức nào. Câu hỏi này không thể chỉ trả lời bằng các chỉ số của chip.

Từ hệ thống ngữ cảnh của NVIDIA lần này, ta có thể thấy rõ các khái niệm như: chi phí token (token cost), throughput trên mỗi Watt, hiệu năng token trên mỗi Watt, và số Token/W.

Hệ thống đo lường đang chuyển từ ngôn ngữ của các thành phần sang ngôn ngữ của hệ thống.

Vì vậy, nếu như các thước đo phổ biến của chip là đỉnh cao sức mạnh tính toán, băng thông và bit/J, thì thước đo hợp lý hơn ở cấp độ hệ thống chính là Token/W. Thước đo thứ nhất đánh giá khả năng của thành phần, thước đo thứ hai đánh giá sản lượng tổng thể. Thứ nhất phù hợp tối ưu cục bộ, còn thứ hai phù hợp tối ưu toàn hệ thống.

03 Token/W kết nối chuỗi năng lượng đến sản lượng trí tuệ

Trong bản ghi nội bộ của NVIDIA tại GTC 2026, token được gọi là đơn vị cơ bản của AI hiện đại. Cách gọi này rất chính xác. Đối với các mô hình ngôn ngữ lớn, dịch vụ suy luận, hệ thống Agent, thì đối tượng người dùng cuối cùng trả tiền chính là khả năng hệ thống tạo ra và xử lý token.

Xét về mặt vận hành kinh doanh, token có ba ưu điểm: 1) Nó liên kết trực tiếp với quá trình suy luận của mô hình. 2) Nó liên kết trực tiếp với mô hình doanh thu. 3) Nó phù hợp để bao phủ các tải trọng mới của thời kỳ suy luận.

Agent, hội thoại nhiều vòng, ngữ cảnh dài, tăng cường truy xuất, gọi công cụ, chuỗi suy luận — những tải trọng mới này rất khó mô tả bằng một FLOPS duy nhất, nhưng đều để lại dấu ấn rõ ràng trên các khía cạnh token, độ trễ (latency), và hiệu quả truyền tải (goodput).

Quan trọng hơn, giới hạn của hạ tầng AI ngày nay ngày càng thể hiện rõ ràng qua giới hạn năng lượng. Báo cáo “Energy and AI” của IEA dự đoán đến năm 2030, điện năng tiêu thụ của trung tâm dữ liệu toàn cầu sẽ tăng lên khoảng 945 TWh, mức tăng đáng kể so với hiện tại; AI là một trong những động lực chính thúc đẩy sự tăng trưởng này, đặc biệt ở Mỹ, chiếm phần lớn trong đợt tăng trưởng. Nói cách khác, nhiều vấn đề của ngành AI trong tương lai, bề ngoài có vẻ liên quan đến chip, nhưng thực chất lại là vấn đề về điện năng, làm mát và tổ chức hạ tầng.

Khái niệm Token/W có giá trị vì nó kết nối chuỗi trung tâm của ngành AI: đầu vào điện năng, qua tính toán, mạng lưới, lưu trữ, điều phối và làm mát, cuối cùng biến thành sản lượng token.

Theo nghĩa này, Token/W không đơn thuần thay thế FLOPS/W hay bit/J, mà bổ sung một góc nhìn mà trước đây chưa chú ý tới:

AI hệ thống thực sự đã chuyển đổi bao nhiêu năng lượng thành bao nhiêu sản phẩm trí tuệ.

Tôi cho rằng, điểm đáng để thảo luận nhất tại GTC lần này chính là đây, không thể nhìn riêng rẽ chip mà phải đặt chip vào hệ thống, rồi hệ thống vào trong các giới hạn của ngành công nghiệp.

Đây cũng chính là góc nhìn mà tác giả luôn khuyến nghị. Nhìn vào chip AI, không chỉ cần xem sức mạnh đỉnh cao, băng thông bộ nhớ, kích thước, tham số giao diện, mà còn phải xem cách chúng phối hợp trong mạng lưới, cách triển khai trong rack, cách lấy điện trong khu công nghiệp, cách hình thành cấu trúc chi phí tại khách hàng, và cuối cùng là cách chuyển đổi thành kết quả thực tế trong kinh doanh.

GTC 2026 phần nào đã xác thực rõ ràng góc nhìn hệ thống này. Bởi vì khi NVIDIA bắt đầu tập trung câu chuyện vào nhà máy AI, ngành công nghiệp đã chuyển từ chủ nghĩa chip tính toán AI sang chủ nghĩa hệ thống tính toán.

Điều này thực sự rất quan trọng. Nhiều ngành công nghiệp ban đầu chỉ chú trọng vào tham số của các thành phần, vì đo lường dễ dàng, dễ quảng bá. Nhưng khi bước vào giai đoạn triển khai quy mô lớn, quyết định thắng thua thường là khả năng tổ chức hệ thống. Hiện nay, hạ tầng AI đã bước vào giai đoạn này.

04 Từ Token/W trở đi, tầm quan trọng của liên kết quang học sẽ rõ rệt hơn

Khi hệ thống đo lường chuyển sang cấp độ hệ thống, nhiều khâu từng coi là phụ trợ sẽ nâng cao vị thế rõ rệt.

Trong số đó, liên kết quang học là ví dụ điển hình.

Trước đây, ngành thường dùng góc nhìn module quang, góc nhìn truyền thông, góc nhìn thiết bị: băng thông cao hơn, truyền xa hơn, tiêu thụ ít pJ/bit hơn, mật độ băng thông tốt hơn, tổn thất chèn thấp hơn. Những điều này đều đúng, nhưng vẫn còn ở mức độ thành phần, chip, các hệ thống con. Trong khung Token/W, giá trị của liên kết quang học sẽ rõ ràng hơn: nó giảm năng lượng vận chuyển dữ liệu, nâng cao khả năng chuyển đổi điện năng thành token trong các hệ thống tính toán quy mô lớn AI.

Khi nói về các sản phẩm mạng quang của NVIDIA, CPO dựa trên photon có thể đạt hiệu quả cao gấp 5 lần so với module quang, đồng thời giảm độ trễ, hỗ trợ mở rộng quy mô nhà máy AI lớn hơn.

Điều này không chỉ là về việc đường truyền tốt hơn, mà còn về khả năng mở rộng hệ thống lớn hơn, hiệu quả hệ thống cao hơn.

Xét theo logic ngành, điều này rất dễ hiểu. Khi mô hình ngày càng lớn, ngữ cảnh dài hơn, cụm máy chủ lớn hơn, nhiều năng lượng tiêu thụ trong hệ thống không còn tập trung ở các đơn vị tính toán nữa, mà chủ yếu nằm ở vận chuyển dữ liệu, giao tiếp giữa chip, giữa bo mạch, giữa tủ rack, giữa các POD.

Trong giai đoạn này, nâng cao Token/W không còn đủ chỉ dựa vào GPU mạnh hơn nữa, mà còn cần liên kết hiệu quả hơn.

Vì vậy, từ góc nhìn Token/W, phát triển liên kết quang học không phải vì nó là công nghệ tiên tiến nhất, mà vì nó đang trở thành biện pháp tiết kiệm năng lượng cần thiết cho các hệ thống AI quy mô lớn.

05 Tính toán quang học tiến xa hơn liên kết quang học, nhưng cũng bắt đầu hợp lý

Tính toán quang học tiến xa hơn liên kết quang học, điều này cần phải thực tế.

Các vấn đề về tính đa dụng, độ chính xác, trình biên dịch, đồng bộ sản xuất, tích hợp hệ thống vẫn đang trong quá trình phát triển. Nhưng nếu đặt giới hạn quan sát ở cấp độ hệ thống, ý nghĩa ngành của nó đã rõ ràng hơn rất nhiều so với trước.

Lý do là, Token/W quan tâm đến hiệu quả năng lượng toàn diện từ đầu đến cuối. Ai có thể tối ưu rõ ràng năng lượng tiêu thụ trên các đường tính toán có tần suất cao, mật độ lớn, có thể ánh xạ lại nhiều lần, thì người đó có cơ hội nâng cao hiệu quả sản lượng token ở cấp độ hệ thống. Logic này không yêu cầu tính toán quang học thay thế toàn bộ GPU, cũng không đòi hỏi nó trở thành nền tảng tính toán chung ngay lập tức.

Chỉ cần một điều: trong một số tải trọng quan trọng, giảm J/token của toàn bộ hệ thống, nâng cao sản lượng token trong phạm vi ngân sách công suất cố định.

Đây chính là lý do tại sao câu chuyện về tính toán quang học cần chuyển từ hiệu quả của từng thiết bị điểm đơn lẻ sang đóng góp tiết kiệm năng lượng của toàn hệ thống. Nếu ngành chỉ quan tâm TOPS/W, MAC/J, thì đó giống như câu chuyện trong phòng thí nghiệm; còn nếu bắt đầu quan tâm đến Token/W, thì có cơ hội tham gia vào các cuộc thảo luận về hạ tầng cơ sở.

Thay đổi này đặc biệt quan trọng đối với tính toán quang học, vì nó cuối cùng đã có một ngôn ngữ cấp cao để đối thoại với khách hàng, khu công nghiệp, điện năng, chi phí vốn.

06 Khi đo lường sức mạnh tính toán chuyển từ chip sang hệ thống, liên kết quang học và tính toán quang học sẽ trở thành trục chính của ngành

Khi cạnh tranh về sức mạnh tính toán vẫn chủ yếu dừng lại ở cấp độ chip, liên kết quang học chỉ như một công nghệ I/O, tính toán quang học chỉ như một khám phá công nghệ tiên tiến.

Nhưng khi cạnh tranh chuyển sang hạ tầng hệ thống quy mô lớn của AI, mọi thứ sẽ thay đổi. Hiệu quả hệ thống ngày càng phụ thuộc vào tiêu thụ năng lượng của tính toán cường độ cao, vận chuyển dữ liệu, quản lý ngữ cảnh, hợp tác liên nút, tổ chức cung cấp điện và quản lý nhiệt, và chính những phần này là nơi quang học có cơ hội phát huy tác dụng lớn nhất.

Từ góc độ Token/W, liên kết quang học giải quyết chi phí vận chuyển sau mỗi token sinh ra; tính toán quang học cố gắng thay đổi phần chi phí tính toán phía sau mỗi token. Cả hai cùng ảnh hưởng đến hiệu quả sản lượng token của toàn hệ thống.

Đây chính là lý do căn bản khiến chúng trở thành trục chính của ngành.

Thực tế hơn, ngoài năng lực và cung cấp chip, các giới hạn mà trung tâm dữ liệu và nhà máy AI trong tương lai phải đối mặt còn bao gồm kết nối lưới điện, làm mát phòng máy, tiêu thụ năng lượng khu công nghiệp, mật độ công suất tủ rack và tốc độ đưa vào vận hành. Các dự báo của IEA về tiêu thụ năng lượng của AI, cùng với cách NVIDIA trình bày về nhà máy AI lần này, đều hướng tới một hướng duy nhất: hạ tầng AI đang trở thành một hệ thống kỹ thuật dựa trên năng lượng.

Nhìn theo hướng mới này, liên kết quang học và tính toán quang học đang giải quyết phần vấn đề ngày càng đắt đỏ, ngày càng khó tiếp tục tối ưu theo con đường điện học truyền thống của thời đại AI: chi phí năng lượng vận chuyển dữ liệu, và năng lượng tiêu thụ trên mỗi đơn vị tính toán cường độ cao.

Điều này phản ánh một tư duy hệ thống toàn diện hơn. Và chính vì vậy, GTC 2026 lần này mới nhấn mạnh trở lại về các sản phẩm quang tử và silicon quang.

Khi sức mạnh tính toán chuyển từ chip sang hệ thống, quang học từ một công nghệ tiên tiến trở thành một hạ tầng công nghiệp đáng xây dựng.

Từ góc độ này, CPO và hệ thống tính toán quang học trong tương lai rất đáng kỳ vọng!

Kết luận: Định hướng thúc đẩy AGI

Trong công việc hàng ngày, tác giả luôn đề xuất xây dựng các tiêu chuẩn đo lường sức mạnh tính toán khách quan, có thể đo lường được, và đã sử dụng phương pháp Tokens/W để đánh giá các chip tính toán khác nhau.

Nhìn lại lịch sử công nghệ, khi năng lượng đầu ra của động cơ đốt trong ngày càng cao so với trọng lượng của nó, thì ô tô mới ra đời, máy bay mới cất cánh, tên lửa mới bay lên không trung.

Trong kỷ nguyên AI, khi tỷ lệ sản phẩm của hệ thống AI (hiện tại là Token) so với năng lượng tiêu thụ ngày càng cao, thì trí tuệ sẽ ngày càng thông minh, và khả năng xuất hiện của AGI sẽ trở nên khả thi.

Điều thực sự đáng nhớ tại GTC 2026 không phải là thành tích hay thất bại của riêng NVIDIA, hay việc Jensen Huang có trở thành “Vua Token” hay không, mà chính là sự rõ ràng của các tiêu chuẩn đo lường mới trong thời đại AI.

Hơn nữa, NVIDIA, Alibaba, và có thể còn nhiều ông lớn khác trong ngành đã bắt đầu nhận thức rõ rằng, cần phải nhìn nhận sự phát triển của ngành AI từ góc độ hệ thống.

Điều này thực chất phù hợp với xu hướng phát triển của nhân loại: sử dụng ít năng lượng hơn để thu thập, truyền tải và xử lý nhiều thông tin hơn.

AGI cũng không ngoại lệ!

Nguồn bài viết: Tencent Technology

Cảnh báo rủi ro và điều khoản miễn trừ trách nhiệm

Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không phải là lời khuyên đầu tư cá nhân, cũng chưa xem xét các mục tiêu đầu tư, tình hình tài chính hoặc nhu cầu đặc biệt của từng người dùng. Người đọc cần cân nhắc xem các ý kiến, quan điểm hoặc kết luận trong bài có phù hợp với hoàn cảnh của mình hay không. Đầu tư theo đó, tự chịu trách nhiệm.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.