Lỗ hổng mà David Cahn đề xuất năm 2023 chưa từng được lấp đầy ở phía đào tạo. Nó được lấp đầy ở phía suy luận, và thị trường chỉ mới bắt đầu tính đến nó trong định giá trong vài tuần qua. Khi Nvidia tái cấu trúc báo cáo tài chính xoay quanh "token dịch vụ", Cerebras IPO được chấp nhận gấp 20 lần, cuộc tranh giành về giới hạn đã kết thúc, vấn đề thực sự trở thành câu hỏi tiếp theo: Khi suy luận trở thành tài nguyên khan hiếm, giá trị sẽ tích tụ ở tầng nào của hệ thống tính toán.

Theo GPU: Từ vấn đề 200 tỷ USD đến vấn đề 600 tỷ USD

Năm 2023, David Cahn của Sequoia đã đặt ra câu hỏi treo lơ lửng trên toàn bộ xây dựng AI, đó là "Vấn đề 200 tỷ USD". Mỗi đô la mua GPU, còn phải chi thêm khoảng 1 đô la để cung cấp điện cho nó trong trung tâm dữ liệu, do đó mỗi năm chi CapEx cho GPU đều có nghĩa là các chip này cuối cùng phải tạo ra khoảng 200 tỷ USD doanh thu để hoàn vốn. Ngay cả khi giả định rất hào phóng về doanh thu AI, ông vẫn phát hiện ra rằng có một khoản lỗ hơn 1250 tỷ USD giữa "đầu tư" và "thanh toán thực tế của khách hàng cuối". Mối lo ngại rõ ràng: GPU đang được xây dựng quá mức so với nhu cầu thực tế.

Sau một năm, khoảng cách không những không thu hẹp mà còn mở rộng. Trong phần tiếp theo của năm 2024, khi các nhà sản xuất quy mô lớn mở rộng CapEx, ông đã định nghĩa lại thành "Vấn đề 600 tỷ USD". Logic bi quan hội tụ thành một hình dạng quen thuộc: xây dựng quá mức dẫn đến cung vượt cầu, và dư thừa sẽ thiêu rụi vốn.

Hai bài viết thực ra đều đang hỏi cùng một câu hỏi: Ai sẽ lấp đầy khoản lỗ này? Câu trả lời chưa từng xuất hiện trong sổ sách của phía "đào tạo". Nó xuất hiện ở phía inference (suy luận), và thị trường chỉ mới bắt đầu tính đến nó trong định giá trong vài tuần qua.

IPO Cerebras và áp lực suy luận

Cerebras IPO vào thứ Năm. Lần này, IPO được chấp nhận gấp 20 lần, với mức giá gần gấp đôi mức tăng cuối cùng vào thứ Tư. Nhu cầu không phải từ việc đặt cược vào "kẻ giết Nvidia tiếp theo", mà xuất phát từ một điều đơn giản hơn: thị trường bắt đầu nhận thức rằng, trong AI, thực sự giới hạn là inference chứ không phải đào tạo.

Điểm mạnh của Cerebras là một kiến trúc chip giúp suy luận cực kỳ nhanh. Không phải đào tạo, mà là suy luận. Đây chính là điểm khiến Wall Street phấn khích. Thị trường inference là thị trường định kỳ, mở rộng theo mức sử dụng. Mỗi lần Claude trả lời câu hỏi, mỗi lần agent thực hiện nhiệm vụ, đều tiêu thụ sức mạnh tính toán. Đào tạo chỉ diễn ra một lần, còn suy luận thì không bao giờ dừng lại.

J.P. Morgan ước tính quy mô thị trường inference gấp 10 đến 50 lần so với đào tạo. Khi máy bắt đầu thực hiện các nhiệm vụ do máy khác ra lệnh, tức là mở rộng theo kiểu agentic (trí thông minh nhân tạo tự hành), nhu cầu inference không còn mở rộng theo số lượng người dùng nữa, mà theo chính sức mạnh tính toán.

Nvidia vẽ lại bản đồ: suy luận trở thành tiêu điểm

Nếu Cerebras là sự thức tỉnh của thị trường, thì báo cáo tài chính quý mới nhất của Nvidia chính là sự xác nhận từ chuỗi cung ứng ngành công nghiệp. Trong cuộc họp báo cáo tài chính mới nhất, Jensen Huang đã làm rõ câu nói ngầm hiểu: Nhu cầu AI đang tăng theo hình parabol. Nguyên nhân rất đơn giản: AI agentic đã đến. AI chính thống đã chuyển từ suy luận một lần sang suy luận logic, rồi tiến tới giai đoạn có thể tự gọi công cụ, sắp xếp nhiệm vụ. Huang nói, "Tokens hiện đang có lợi." Trong kỷ nguyên AI, sức mạnh tính toán chính là doanh thu và lợi nhuận.

Điều này đã định hình lại toàn bộ ngành. Đào tạo là chi phí một lần để xây dựng mô hình, còn inference là chi phí vận hành định kỳ, và hiện tại, giới hạn nằm ở suy luận, không phải đào tạo.

Nvidia đã ghi nhận nhận định này vào báo cáo tài chính của mình. Hiện họ báo cáo theo hai nền tảng, thay vì một: Data Center (trung tâm dữ liệu) và Edge Computing (tính toán biên). Trung tâm dữ liệu (khoảng 75 tỷ USD trong quý, tăng 92% so với cùng kỳ) được chia thành Hyperscale (khoảng 38 tỷ USD, tăng 12%) và ACIE, tức là AI đám mây, công nghiệp và doanh nghiệp (khoảng 37 tỷ USD, tăng 31%). Một dòng mới xuất hiện là Edge Computing: 6,4 tỷ USD, tăng 29% so với cùng kỳ, bao gồm agentic AI và các thiết bị thực thi AI như PC, trạm làm việc, trạm gốc AI-RAN, robot và ô tô.

Hiện tại, biên giới của phần này vẫn chưa tới 8% tổng doanh thu, nhưng Nvidia đã nâng nó thành "nền tảng thứ hai" song song với trung tâm dữ liệu. Tín hiệu rõ ràng là: inference đang phân chia thành hai chiến tuyến, đó là inference đám mây trong trung tâm dữ liệu và inference endpoint ở phía biên, để AI có thể nhìn thấy, di chuyển và hành động trong thế giới vật lý. Lộ trình theo cùng một logic: bắt đầu từ quý III, Vera Rubin sẽ có khả năng xử lý gấp 35 lần Blackwell; Huang còn đưa ra một dự báo mới về TAM 2000 tỷ USD cho Vera CPU dành cho các tải agentic. Mỗi công ty mô hình hàng đầu dự kiến sẽ chuyển hoàn toàn sang nó ngay từ ngày đầu tiên.

Khi các công ty có giá trị niêm yết cao nhất thế giới tái cấu trúc tài chính xoay quanh "token dịch vụ", cuộc tranh giành giới hạn đã ngã ngũ. Phần còn lại của bài viết bàn về việc, khi inference (thay vì đào tạo) trở thành tài nguyên khan hiếm, thì giá trị sẽ thuộc về ai.

Trước tiên, xác định phạm vi. Trong hai chiến tuyến này, bài viết tập trung vào inference đám mây, tức là dịch vụ API token cung cấp ra bên ngoài, sử dụng GPU trung tâm dữ liệu thuê ngoài. Inference endpoint chạy trên chip nội bộ của thiết bị (Nvidia Jetson, RTX, Drive, AI-RAN), hoàn toàn không qua hệ thống thuê và tập hợp GPU phía dưới. Ở đây, xin xem đó như là một đòn bẩy để mở rộng toàn bộ nền kinh tế inference, chứng minh luận điểm về giới hạn, chứ không phải thị trường của Hyperbolic và Venice, hai công ty hoàn toàn nằm trong đám mây.

Áp lực đã bắt đầu

Anthropic là chú chim báo hiệu trong mỏ than. Việc sử dụng vượt quá năng lực đã được cấu hình trước, các phản hồi bị giới hạn, suy luận chậm lại, và các cửa sổ ngữ cảnh bị nén lại đã tràn ngập mạng, bao gồm cả các phản hồi bị giới hạn, suy luận chậm, và các giới hạn về ngữ cảnh. Giải pháp rõ ràng là sức mạnh tính toán: Tháng 5 năm 2026, Anthropic tiếp quản toàn bộ trung tâm dữ liệu Colossus 1 từ SpaceX, gồm hơn 220.000 GPU Nvidia, công suất hơn 300 MW, dành riêng cho inference, không phải đào tạo.

Phần năng lực này đã mở ra một loạt các thay đổi về hạn mức, mỗi lần đều là một tín hiệu. Ngày 6 tháng 5, Anthropic đã gấp đôi hạn mức 5 giờ của Claude Code, hủy bỏ giới hạn cao điểm, và tăng đáng kể tốc độ API của Opus. Ngày 13 tháng 5, lại tăng hạn mức hàng tuần của Claude Code thêm 50% (đến ngày 13 tháng 7). Sau đó, từ ngày 15 tháng 6, họ làm điều ngược lại: tách các tải agentic và sử dụng theo quy trình (Agent SDK, chế độ không đầu claude -p, pipeline CI) ra khỏi gói đăng ký phẳng, đưa vào một quỹ tín dụng riêng biệt (mỗi tháng từ 20 đến 200 USD, tính theo giá API). Bước cuối cùng này đã cô đọng toàn bộ luận điểm trong một hành động: tốc độ tiêu thụ inference của agent nhanh hơn khả năng chịu đựng của gói đăng ký phẳng, do đó phải định giá theo "chi phí vận hành định kỳ" ban đầu của nó.

Đào tạo là chi phí vốn một lần. Inference là chi phí vận hành định kỳ, cộng dồn theo từng người dùng mới, từng agent mới.

Cấu trúc này gồm sáu tầng, một giới hạn

Mỗi ứng dụng AI đều nằm trong một chuỗi cung ứng bắt đầu từ nhà máy TSMC, đến điểm API cuối cùng:

Hầu hết các công ty chỉ sở hữu một tầng trong đó. Nvidia sở hữu silicon, CoreWeave sở hữu phần cứng trần, Together AI sở hữu tối ưu hóa suy luận, OpenRouter sở hữu API mô hình.

Chỉ có một công ty duy nhất ngoại lệ.

Hyperbolic: Công ty duy nhất vượt qua ba tầng

Hyperbolic ra mắt thị trường GPU theo yêu cầu vào tháng 6 năm 2025. Trong vài tháng đầu, số lượng nhà phát triển đã vượt quá 200.000, bao gồm các phòng thí nghiệm AI hàng đầu, các nền tảng tìm kiếm, và các nền tảng tiêu dùng lớn.

Điều thú vị là kiến trúc của họ.

Hyperbolic không sở hữu một GPU nào của riêng mình. Mỗi card đều đến từ neocloud và trung tâm dữ liệu, bao gồm CoreWeave, Lambda Labs, Nebius, và các nhà vận hành nhỏ hơn có dư thừa năng lực. Nghe có vẻ yếu điểm, nhưng thực ra lại là lợi thế cạnh tranh.

Bằng cách nằm giữa nhà cung cấp GPU và người tiêu dùng, Hyperbolic có thể nhìn thấy dữ liệu thời gian thực mà người khác không thể. Nó biết ai đang mua GPU với giá nào, vào thời điểm nào. Nó đã nhìn thấy trước khi cung vượt cầu công khai, và dự đoán trước khi nhu cầu tăng vọt tác động thị trường.

Hiện tại, lợi thế cạnh tranh này chính là hệ thống tập hợp đa đám mây. Hyperbolic kết hợp năng lực phân mảnh từ hàng chục đám mây và trung tâm dữ liệu thành một hồ chứa tiêu chuẩn hóa, giúp các nhà phát triển không cần đàm phán với từng nhà vận hành, cũng không cần quản lý nhiều tài khoản, mà vẫn có thể thuê GPU rẻ nhất ở bất cứ đâu. Càng kết nối nhiều đám mây, tính thanh khoản càng sâu, dữ liệu định giá càng phong phú. Trong tương lai, nhóm đang khám phá cách dùng dữ liệu này để mô hình hóa đường cong giá GPU, và cuối cùng dùng vốn tự có để cân bằng cung cầu, đóng vai trò nhà tạo lập thị trường cho sức mạnh tính toán vật lý; nhưng mục tiêu này còn trong giai đoạn sơ khai, phần thực sự sinh lợi là tầng tập hợp.

Đây chính là vòng quay:

Kết nối nhiều đám mây hơn → Nhiều nguồn cung cấp hơn

Nhiều nguồn cung → Thị trường sâu hơn và dữ liệu định giá thời gian thực

Dữ liệu tốt hơn → Đường dẫn định tuyến thông minh hơn hiện tại, mô hình định giá dài hạn

Thanh khoản và giá cả tốt hơn → Nhiều nhà phát triển hơn → Nhiều đám mây muốn tham gia

Chưa có công ty nào khác đang thử làm điều này. Hyperbolic là công ty duy nhất vượt qua cả ba tầng GPU cho thuê, triển khai và API mô hình.

Venice: Gương phản chiếu

Venice là biểu hiện rõ ràng nhất của nền kinh tế inference ở tầng ứng dụng, và cũng là đối chiếu hữu ích với vị trí của Hyperbolic. Nó là một ứng dụng inference ưu tiên quyền riêng tư: một bộ API tương thích OpenAI, kèm theo các gói đăng ký dành cho người tiêu dùng (Free / Pro / Pro+ / Max), phân phối yêu cầu đến khoảng 75 mô hình, trong đó khoảng hai phần ba là mô hình mã nguồn mở hoặc tự quản lý (Llama, Mistral, Qwen, DeepSeek), phần còn lại là các mô hình tiên tiến đóng nguồn được truyền qua ẩn danh. Điều quan trọng là Venice không sở hữu năng lực tính toán đáng kể nào của riêng mình. Nó thuê từ các đối tác GPU không công khai và nhà cung cấp tính toán bí mật (NEAR AI Cloud, Phala), và trả phí cho các phòng thí nghiệm hàng đầu để truyền qua, do đó chi phí doanh thu thực sự của Venice là sức mạnh inference, chứ không phải dịch vụ SaaS.

Điều Venice bán thực sự là quyền riêng tư. "Quyền riêng tư" ở đây không phải là biến sức mạnh tính toán công cộng thành tài sản riêng, mà là bao bọc inference thương mại bằng một lớp đảm bảo: không lưu trữ dữ liệu, không dùng để đào tạo, yêu cầu ẩn danh, một số tải còn chạy trong TEE, để nhà vận hành cũng không thể nhìn thấy rõ nội dung. Nền tảng tính toán là hàng phổ thông, còn giá trị gia tăng là lớp bảo vệ quyền riêng tư này. Và lớp này có cấu trúc phân tầng, không đồng nhất: đối với các mô hình mã nguồn mở chạy trên thiết bị do Venice kiểm soát hoặc trong TEE, có thể gần như thực hiện tính toán bí mật từ đầu đến cuối; còn đối với các mô hình đóng như Claude, GPT, truyền qua ẩn danh chỉ là loại bỏ danh tính, còn dữ liệu gốc vẫn được xử lý tại phía các phòng thí nghiệm hàng đầu. Vì vậy, quyền riêng tư mạnh nhất chỉ bao phủ phần mã nguồn mở, còn phần các mô hình tiên tiến đóng là "ẩn danh" chứ không phải "thật bí mật". Lợi nhuận của Venice = giá đăng ký − chi phí inference trả cho phía dưới, và phần mà họ có thể thu thêm so với giá API thuần túy gần như hoàn toàn dựa vào lớp bảo vệ quyền riêng tư này, lý do khiến họ lợi nhuận mỏng và bị giới hạn bởi giá truyền qua các mô hình hàng đầu.

Thiết kế token đã đóng gói phần nhu cầu inference này. Venice hoạt động dựa trên hai token: VVV (cần staking và tham gia nền tảng) và DIEM, trong đó DIEM là một tín dụng inference, mỗi DIEM tương đương khoảng 1 USD sức mạnh tính toán mỗi ngày. Gói đăng ký trả phí sẽ kích hoạt mua lại và đốt VVV theo quy trình (Pro / Pro+ / Max lần lượt khoảng 2 / 5 / 10 USD), và phát hành theo lịch trình cố định: mỗi tháng 6 triệu → 5 triệu → 4 triệu VVV, rồi giảm xuống còn 3 triệu từ ngày 1 tháng 7. Việc mua lại là có thật, nhưng mang tính tự do quyết định và còn nhỏ: tháng 4 và tháng 5, đốt khoảng 103.000 USD, tháng 6 đang chậm rãi tiến tới khoảng 110.000 USD, thấp hơn nhiều so với mức 200.000 USD mỗi tháng.

Các yếu tố cơ bản còn lành mạnh hơn tiêu đề. Con số "ARR 70 triệu USD" lan truyền rộng rãi gần như chắc chắn là nhầm lẫn giữa doanh thu gia hạn và khách hàng mới thuần túy; phạm vi quan sát hợp lý hơn là khoảng 6 triệu đến 15 triệu USD ARR. Trong đó, thực tế là có: khoảng 136.000 địa chỉ ví, khoảng 9,9 triệu lượt truy cập website mỗi tháng (khoảng 330.000 mỗi ngày), số lượng đăng ký Pro mới dao động quanh 1.400 mỗi ngày. Đây là một doanh nghiệp thực sự, nhưng là doanh nghiệp lợi nhuận mỏng, và khả năng kinh doanh bị giới hạn bởi sức mạnh tính toán mà họ mua.

Đây chính là lý do Hyperbolic nằm trên tầng cao hơn. Nếu Venice là trạm xăng, thì Hyperbolic chính là nhà lọc dầu. Venice mua sức mạnh tính toán từ nguồn cung hạn chế chung mà mọi người đều dựa vào; Hyperbolic tập hợp, tiêu chuẩn hóa phần năng lực phân mảnh đó, rồi bán cho Venice và các đối thủ tương tự. Khi nhu cầu inference tăng trưởng, giá trị không chỉ tích tụ trong các ứng dụng tiêu thụ sức mạnh tính toán, mà còn trong việc tập hợp, định tuyến và thu phí phần chi phí doanh thu của các ứng dụng đó.

Tại sao điều này lại quan trọng lúc này

Nvidia đã tái cấu trúc tài chính xoay quanh "token dịch vụ". IPO Cerebras chứng minh thị trường đã hiểu inference là giới hạn. Anthropic đang chạy đua mở rộng năng lực, chứng minh đây là một vấn đề thực sự. Các tải agentic và physical AI sẽ nhân đôi hoặc nhân ba nhu cầu, vượt qua cả hai chiến tuyến đám mây và biên.

Và nó cũng đã khép kín vòng tròn của "Vấn đề 600 tỷ USD". Logic bi quan của Cahn, tức là xây dựng quá mức rồi dư thừa, cuối cùng có thể sẽ được chứng thực. Nhưng dư thừa chính là cơ hội tốt nhất cho các nhà tập hợp tài sản nhẹ: khi giá GPU giảm, cung phân mảnh rải rác trên hàng chục đám mây, kẻ không sở hữu phần cứng nào, chỉ định tuyến mỗi công việc đến GPU rẻ nhất có thể, sẽ kiếm lời chênh lệch, còn các nhà vận hành sở hữu GPU đã bắt đầu khấu hao sẽ chịu lỗ. Hyperbolic là người đặt cược vào dư thừa, chứ không phải bán khống nó.

Công ty chiến thắng cuối cùng sẽ không phải là công ty sở hữu nhiều GPU nhất, mà là công ty có thể cho biết GPU ở đâu, giá bao nhiêu, và định tuyến mỗi công việc đến nơi có chi phí thấp nhất.

Hyperbolic đang xây dựng một công ty như vậy. Không sở hữu GPU của riêng mình, chỉ phần mềm, xuyên suốt ba tầng, nhưng lại tạo thành tầng tập hợp sức mạnh inference cuối cùng.

VVV-7,8%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích