DeepSeek-V4 đã mở ra một cơ chế chú ý hoàn toàn mới, thực hiện nén ở chiều token, kết hợp với chú ý thưa DSA (DeepSeek Sparse Attention), đạt được khả năng xử lý ngữ cảnh dài hàng đầu thế giới, đồng thời so với phương pháp truyền thống giảm đáng kể yêu cầu về tính toán và bộ nhớ GPU.

Đừng xem thường, DeepSeek-V4 đã giảm mạnh yêu cầu về tính toán và bộ nhớ GPU.

Mỹ投 cho rằng, điều này sẽ trực tiếp làm giảm lợi thế của GPU của Nvidia. Đáng chú ý là, DeepSeek-V4 còn ưu tiên thích ứng với các nhà sản xuất chip nội địa.

Nói cách khác, đừng đánh giá quá cao rào cản của Nvidia, cũng đừng xem thường cuộc cách mạng kiến trúc mà DeepSeek đang khởi xướng. Chìa khóa không phải là “ai thay thế ai”, mà là phân phối lợi nhuận trong chuỗi ngành công nghiệp AI, lộ trình triển khai và logic đầu tư có thể đang thay đổi.

Nhảy múa trong “xiềng xích”

Trong hai năm qua, các mô hình lớn AI chủ yếu tập trung vào huấn luyện, cạnh tranh về sức mạnh tính toán.

Ở mức độ nhất định, cuộc cạnh tranh các mô hình lớn nền tảng AI về cơ bản chính là cạnh tranh hạ tầng GPU. Ai có thể mua được nhiều GPU cao cấp hơn, xây dựng được các cụm lớn hơn, thì có nhiều cơ hội tạo ra các mô hình nền tảng mạnh hơn.

Tuy nhiên, do Mỹ kiểm soát xuất khẩu, cấm bán các chip hàng đầu như H100/H200 của Nvidia cho Trung Quốc. Thêm vào đó, quy trình công nghệ tiên tiến của TSMC đã bị Mỹ phong tỏa, các GPU nội địa vẫn còn khoảng cách nhất định so với Nvidia.

“Các nhà sản xuất GPU trong nước đều đang thi đấu trong “xiềng xích” cùng Nvidia,” một nhân viên trong ngành GPU từng mô tả với Mỹ投.

Điều thú vị là, chính trong bối cảnh khó khăn này, khoảng cách giữa các mô hình lớn Trung-Mỹ bắt đầu thu hẹp dần, thậm chí gần như cân bằng.

Đến cuối năm 2023, khoảng cách hiệu năng giữa các mô hình hàng đầu Trung-Mỹ vẫn dao động trong khoảng 20%-30%. Ngày 14 tháng 4, phòng thí nghiệm HAI của Stanford công bố Báo cáo Chỉ số AI 2026, dài 423 trang, báo cáo ngành uy tín này cho thấy khoảng cách hiệu năng các mô hình lớn Trung-Mỹ đã thu hẹp còn 2.7%, gần như đạt trình độ kỹ thuật ngang bằng.

Mỹ投 cho rằng, nếu xem khoảng cách hiệu năng các mô hình lớn AI Trung-Mỹ là kết quả, thì GPU của Nvidia không phải là yếu tố quyết định.

Một phần, điều này xuất phát từ sự trỗi dậy của chip nội địa và hạ tầng năng lượng của Trung Quốc.

Trong một cuộc phỏng vấn gần đây, Jensen Huang nói rằng “AI về bản chất là vấn đề tính toán song song, Trung Quốc hoàn toàn có thể bổ sung khoảng cách về quy trình của từng chip bằng cách xếp chồng nhiều chip hơn, Trung Quốc có nguồn năng lượng dồi dào, nếu muốn, hoàn toàn có thể kết hợp nhiều chip hơn, ngay cả khi quy trình công nghệ còn kém hơn vài nanomet.”

Thực tế, nhiều nhà sản xuất GPU trong nước đã xây dựng các cụm hàng vạn card để bù đắp cho hạn chế về sức mạnh tính toán của từng card đơn. Ví dụ: cụm hàng vạn card của Moore, của Mu Xi.

Ngược lại, điều này còn liên quan đến các doanh nghiệp mô hình lớn tiêu biểu như DeepSeek.

DeepSeek sử dụng thiết kế tiên phong về phần mềm, chủ động thích ứng và tăng cường khả năng cho phần cứng nội địa, mở đường cho chip nội địa.

Ví dụ: DeepSeek-V3 đã xác nhận khả năng sử dụng của FP8 trong huấn luyện mô hình quy mô lớn, mở rộng quy mô huấn luyện mà không tăng chi phí thêm, đồng thời không ảnh hưởng đến chất lượng huấn luyện.

Ví dụ, trước đây, để hoàn thành một nhiệm vụ tính toán AI phức tạp, cần vài máy gia công Đức khổng lồ, chính xác cao và đắt tiền (đại diện cho GPU cao cấp của Nvidia). Nhưng giờ đây, DeepSeek thay đổi quy trình xử lý nhiệm vụ (tức là thay đổi định dạng dữ liệu), khiến nhiệm vụ này có thể được thực hiện hiệu quả bằng hàng chục máy nhỏ, đơn giản, rẻ tiền của nội địa (đại diện cho các đơn vị tính toán GPU nội địa).

Dù vậy, GPU của Nvidia vẫn giúp các mô hình lớn quốc tế vượt trội hơn trong huấn luyện.

Nhưng theo tiến trình ngành công nghiệp, huấn luyện mô hình lớn chỉ là giai đoạn đầu. Sau khi tạo ra mô hình lớn, quyết định tốc độ thương mại hóa và độ thâm nhập của ngành chính là suy luận. Đặc biệt là sau khi các Agent như Openclaw, Hermes bùng nổ.

Nvidia thắng trong huấn luyện, nhưng suy luận mới là bắt đầu

Huấn luyện và suy luận là hai chế độ khác nhau.

Sự bùng nổ của các Agent dạng Claw, khả năng ghi nhớ ngữ cảnh dài là yếu tố then chốt.

Trước đây, AI chỉ biết trò chuyện, rồi quên ngay sau đó, như cá fish; còn Claw có thể ghi nhớ mọi thứ, liên tục làm việc, càng dùng càng hiểu bạn, khiến nó từ “đồ chơi” trở thành “công cụ”.

Khi ngữ cảnh ngày càng dài, khả năng ghi nhớ của Agent ngày càng sâu, việc gọi công cụ ngày càng thường xuyên, bộ nhớ KV cache (bộ nhớ lưu trữ) của GPU sẽ bị quá tải, chất lượng suy luận của mô hình lớn sẽ giảm.

Vì vậy, điểm nghẽn đầu tiên của bùng nổ suy luận không phải là thiếu sức mạnh tính toán, mà là “ghi nhớ” và “tính toán” tranh giành cùng một bộ nhớ GPU.

Với GPU nội địa, sức mạnh tính toán (đỉnh TFLOPS) không phải là giới hạn lớn nhất, mà là bộ nhớ. Trong khi đó, GPU của Nvidia có lợi thế vượt trội về công nghệ bộ nhớ HBM, hơn các nhà sản xuất khác 1-2 thế hệ.

Các GPU trung tâm dữ liệu chính của Nvidia (như A100, H100) thường có dung lượng bộ nhớ đơn là 80GB, trong khi thế hệ mới nhất Rubin GPU trang bị 8 chip HBM4 36GB (tổng dung lượng 288GB), băng thông bộ nhớ đạt 13 TB/s.

Chip nội địa bị hạn chế bởi quy trình công nghệ, dung lượng và băng thông bộ nhớ còn thấp hơn, vẫn cần đột phá. Ví dụ: bộ nhớ của Ascend 910B là 64GB.

Theo bài báo của Liang Wenfeng đã công bố trước đó, DeepSeek-V4 lần này có thể đã sử dụng kiến trúc Engram đặc biệt, chính xác là để giải quyết giới hạn dung lượng bộ nhớ.

Cách làm của DeepSeek-V4 là trích xuất những “kiến thức cứng” trong mô hình, đưa vào một bảng bộ nhớ khổng lồ; khi suy luận, CPU chịu trách nhiệm “tra từ điển” (truy xuất kiến thức), GPU chỉ làm “suy luận logic” (tính toán).

Hai quá trình này hoàn toàn đồng bộ. Khi GPU tính toán logic cho một từ, CPU đã chuẩn bị kiến thức cho từ tiếp theo. Nhờ kiến trúc song song này, độ trễ bị che phủ hoàn toàn, năng suất đầu ra của AI trong cùng một thời gian tăng theo cấp số nhân, bộ nhớ GPU không còn bị quá tải bởi KV cache.

Ví dụ, một nhiệm vụ suy luận dài cần 80GB bộ nhớ, giờ đây có thể chỉ cần 8GB nhờ kiến trúc Engram.

Điều này có nghĩa là, trong điều kiện bộ nhớ GPU hạn chế, các GPU nội địa vẫn có thể hoàn thành cùng một nhiệm vụ, trong khi bộ nhớ HBM của Nvidia, vốn tự hào, đang đối mặt với nguy cơ sụp đổ. Đồng thời, CPU cũng sẽ bùng nổ.

Ngoài ra, đáng chú ý hơn nữa là, DeepSeek-V4 sắp ra mắt, lần này không theo thông lệ ngành, không cho phép Nvidia thử nghiệm sớm, mà để toàn bộ cơ hội thích ứng sớm cho Huawei và Cambricon. Mục tiêu là chuyển toàn bộ hệ sinh thái CUDA sang framework CANN của Huawei.

Dù hệ sinh thái CUDA của Nvidia trong ngắn hạn vẫn chưa thể bị thay thế, nhưng đã xuất hiện những vết rạn nứt. Điều này cũng có nghĩa, DeepSeek dù trong hệ sinh thái mã nguồn mở hay tự chủ nội địa, vẫn giữ vị trí mạnh mẽ.

Theo các báo cáo truyền thông, để đáp ứng nhu cầu dịch vụ đám mây dựa trên mô hình này, các tập đoàn công nghệ như Alibaba, ByteDance, Tencent đã đặt hàng sớm chip AI thế hệ mới của Huawei, với quy mô hàng chục vạn đơn vị.

Có thể dự đoán, DeepSeek-V4 sắp ra mắt này cũng sẽ mang lại kỳ vọng mới cho đầu tư AI.

Kỳ vọng đầu tư mới

Từ góc độ đầu tư, Mỹ投 cho rằng DeepSeek-V4 sẽ trực tiếp mang lại lợi ích cho hai hướng lớn: năng lực tính toán nội địa và ứng dụng AI.

1. Năng lực tính toán nội địa

Nếu DeepSeek-V4 xác nhận hoàn toàn dựa trên năng lực tính toán nội địa để huấn luyện, thì đây sẽ là “Khoảnh khắc DeepSeek” trong lịch sử chip nội địa. Điều này chứng minh rằng, ngay cả khi không có H100, chúng ta vẫn có thể chạy các mô hình lớn hàng đầu thế giới.

Thay đổi biên mang lại vượt xa mong đợi. Kỳ vọng này không kém gì Google huấn luyện Gemini bằng chip TPU tự phát triển. Đặc biệt, Google đã trở thành mục tiêu trong danh mục đầu tư của Buffett, Berkshire Hathaway.

Trước đó, thị trường kỳ vọng về năng lực tính toán nội địa chủ yếu dựa trên câu chuyện “tự chủ và kiểm soát”, còn V4 sẽ đẩy logic này đến “dễ dùng và cần thiết” trong kinh doanh.

Những bên hưởng lợi lớn nhất lần này chính là các nhà sản xuất GPU nội địa. Huawei, Cambricon đã rõ ràng thể hiện. Các nhà sản xuất GPU nội địa khác cũng sẽ tích cực thích ứng với các mô hình lớn của DeepSeek. Từ góc độ chắc chắn, các nhà cung cấp chip nội địa, máy chủ nội địa và các nhà cung cấp phụ trợ liên quan như Huawei, Cambricon có độ chắc chắn hưởng lợi cao nhất.

Dự kiến đến năm 2026, các công ty AI đã niêm yết như Cambricon, BIR, Tianshu Zhixin đều dự báo doanh thu tăng khoảng 120% so với cùng kỳ, đạt khoảng 25.7 tỷ nhân dân tệ.

Ngoài ra, về mặt linh hoạt, Mu Xi dự kiến đến 2026 sẽ có lãi trở lại, có khả năng trở thành nhà sản xuất GPU có lãi thứ hai sau Cambricon, hình thành chu trình thương mại hoàn chỉnh.

Do đó, năng lực tính toán nội địa sẽ tiếp tục là trọng điểm của đầu tư AI.

2. Ứng dụng AI

Ngoài việc thích ứng với nhu cầu suy luận dựa trên năng lực tính toán nội địa, DeepSeek-V4 có thể thông qua các kiến trúc sáng tạo (mHC và Engram) để giảm thiểu chi phí huấn luyện và suy luận, thúc đẩy chu kỳ đổi mới giá trị AI của Trung Quốc.

Cùng lúc, DeepSeek còn kỳ vọng giúp các doanh nghiệp ứng dụng AI lớn toàn cầu đẩy nhanh quá trình thương mại hóa, giảm bớt áp lực chi tiêu vốn ngày càng nặng nề.

Khi kiến trúc Engram đi vào thực tế, yêu cầu về bộ nhớ GPU giảm tới 90%, chi phí phần cứng cho suy luận sẽ giảm mạnh. Điều này là tin vui lớn cho triển khai cuối cùng (AI suy luận biên).

Ngoài ra, từ tháng 1 năm nay, ngành AI ứng dụng của thị trường chứng khoán Trung Quốc đã có xu hướng trầm lắng, điểm nghẽn chính là nỗi sợ “mô hình lớn nuốt chửng phần mềm”. Các ứng dụng AI đã bước vào giai đoạn “xóa sổ logic”.

Nhưng việc ra mắt DeepSeekV4 có thể cải thiện tâm lý này. Đối với các công ty ứng dụng trong A-shares, mô hình lớn giống như một hạ tầng rẻ tiền, giúp tối ưu hóa chi phí.

Mỹ投 cho rằng, các doanh nghiệp ứng dụng AI gắn bó chặt chẽ với dữ liệu cốt lõi, cùng các nhà cung cấp dịch vụ đám mây liên quan, cũng sẽ có khả năng đón nhận sự cải thiện biên.

Tổng kết

Nvidia vẫn là hạ tầng mạnh nhất để huấn luyện các mô hình lớn, điều này không có gì bàn cãi. Trong ngắn hạn, lợi thế của họ về GPU huấn luyện cao cấp, hệ sinh thái CUDA và khả năng cluster vẫn rất khó bị thay thế.

Không thể phủ nhận, lợi thế của Nvidia đang dần bị DeepSeek “đường cong cứu quốc” phá vỡ.

DeepSeek-V4 đi đầu trong việc thích ứng với chip nội địa và đổi mới đang cố gắng chứng minh rằng, suy luận AI không nhất thiết phải dựa vào GPU đắt nhất để tiến xa hơn, mà còn có thể mở ra con đường mới bằng tối ưu hệ thống, phối hợp phần mềm-hardware và triển khai nội địa hóa. Đồng thời, năng lực tính toán nội địa cũng có thể tiến thêm một bước nữa.

Đừng đánh giá quá cao Nvidia, cũng đừng xem thường DeepSeek và năng lực tính toán nội địa.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
192.91K Phổ biến
#
CryptoMarketSeesVolatility
253.94K Phổ biến
#
IsraelStrikesIranBTCPlunges
32.37K Phổ biến
#
rsETHAttackUpdate
84.7K Phổ biến
#
US-IranTalksStall
352.45K Phổ biến

Ghim

sơ đồ trang web

Đừng đánh giá quá cao Nvidia Đừng đánh giá thấp DeepSeek

Nhảy múa trong “xiềng xích”

Nvidia thắng trong huấn luyện, nhưng suy luận mới là bắt đầu

Kỳ vọng đầu tư mới

Tổng kết

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim