Con đường trị giá hàng trăm tỷ USD của DeepSeek: Sử dụng mã nguồn mở để thúc đẩy hệ sinh thái phần cứng trị giá hàng nghìn tỷ

Tiêu đề gốc: Chiến lược lớn 10 nghìn tỷ USD của DeepSeek
Tác giả gốc: @bookwormengr
Dịch: Peggy, BlockBeats

Lời người biên tập: Trong năm qua, các cuộc thảo luận về DeepSeek chủ yếu tập trung vào hiệu năng mô hình, chiến lược mã nguồn mở và cuộc chiến giá cả. Nhưng nếu chỉ hiểu DeepSeek qua các câu hỏi như "có bán thuê bao không", "có đa phương thức không", "có thể làm coding agent không", có thể đã đánh giá thấp những gì nó thực sự muốn thay đổi.

Bài viết này đưa ra một nhận định còn mang tính cấp tiến hơn: Mục tiêu của DeepSeek không nhất thiết là kiếm lợi ngắn hạn qua ứng dụng, mà là thông qua một loạt đổi mới kiến trúc nền tảng, định hình lại cấu trúc chi phí đào tạo và suy luận AI, và gián tiếp thúc đẩy hình thành một hệ sinh thái phần cứng mới. Từ MoE, MLA đến DSA, CSA, mHC, Engram, rồi đến Dual Path và TileLang, lộ trình công nghệ của DeepSeek luôn xoay quanh một vấn đề cốt lõi: trong bối cảnh HBM, quy trình công nghệ tiên tiến, đóng gói và hệ sinh thái CUDA đều bị hạn chế, làm thế nào để chạy các mô hình mạnh hơn với ít sức mạnh tính toán cao cấp hơn.

Điều đáng chú ý nhất của bài viết không phải là "DeepSeek có thể kiếm vài tỷ USD nhờ API hoặc thuê bao", mà là liệu nó có đang liên kết khả năng mô hình, hệ thống bộ nhớ và hệ sinh thái phần cứng nội địa lại với nhau không. KV Cache nén giúp giảm phụ thuộc vào HBM, NAND và SSD có thể đảm nhận cache lâu dài, LPDDR có thể dùng để tải trọng số theo luồng và lưu trữ Engram, TileLang cố gắng làm giảm rào cản của CUDA. Nếu những đổi mới này tiếp tục lan rộng, lợi ích không chỉ dành riêng cho DeepSeek mà còn cho các lĩnh vực lưu trữ, ASIC, GPU, chip mạng và toàn bộ chuỗi hạ tầng AI.

Dĩ nhiên, các nhận định về "ngành công nghiệp trị giá 10 nghìn tỷ USD" và "định giá 1 nghìn tỷ USD" vẫn mang tính dự đoán cao. Nhưng chúng cung cấp một con đường quan trọng để hiểu DeepSeek: mã nguồn mở không nhất thiết đồng nghĩa với từ bỏ thương mại, giá thấp không nhất thiết chỉ là để bù đắp thị trường. Đối với DeepSeek, kinh doanh thực sự có thể không nằm ở tầng ứng dụng, mà là giúp phần cứng trở nên khả dụng hơn, làm cho cung cấp AI với chi phí thấp hơn trở thành khả thi. Nói cách khác, nó không nhất thiết bán chính mô hình, mà là khả năng của hạ tầng AI thế hệ tiếp theo.

Dưới đây là nội dung gốc:

Bạn đã từng nghĩ đến cách DeepSeek kiếm tiền, và có thể kiếm rất nhiều không?

Nó không giống như GLM, MoonShot hay MiniMax, đã ra mắt các gói thuê bao lập trình cạnh tranh; cũng không có đa phương thức, mô hình âm thanh, video. Cho đến nay, nó thậm chí còn chưa có hệ thống khung chạy bên ngoài cho gọi mô hình, tích hợp công cụ hay thực thi nhiệm vụ — dù gần đây họ đã bắt đầu tuyển dụng các vị trí liên quan để xây dựng hệ thống này.

Trong khi đó, DeepSeek dường như vẫn kiên định đứng về phía mã nguồn mở, thậm chí rất sẵn lòng chia sẻ "bí quyết" của mình. Điều này có phải là điên rồ không? Có phải là đang phí phạm tiền bạc không? Những nhà đầu tư sẵn sàng bỏ ra 10 tỷ USD để đầu tư vào nó, có phải đang ném tiền vào cống không?

Theo cá nhân tôi, câu trả lời hoàn toàn ngược lại.

Tiếp theo, tôi sẽ dựa trên những gì DeepSeek đã làm để đưa ra một số quan sát, phân tích chiến lược mà họ dường như đang theo đuổi. Giám đốc điều hành của DeepSeek, Liang Wenfeng, có thể không chỉ nhắm vào cạnh tranh mô hình trước mắt. Ông ấy có thể đang hướng tới một mục tiêu lớn hơn: DeepSeek có cơ hội đạt mức định giá 1 nghìn tỷ USD, đồng thời thúc đẩy hình thành một ngành công nghiệp mới trị giá 10 nghìn tỷ USD.

Báo cáo của TechInAsia về vòng gọi vốn mới nhất của DeepSeek

Hồi sinh hành trình "Anh hùng" của DeepSeek

DeepSeek luôn đi ngược dòng. Nó không chọn cách liên tục ra các mô hình mạnh hơn một chút rồi vội vàng đóng gói thành các ứng dụng có thể kiếm tiền ngay, như các gói thuê bao lập trình. Vào ngày 27 tháng 1 năm 2025, tôi đã đăng một tweet rất lan truyền kể về "hành trình anh hùng" của DeepSeek theo quan điểm của tôi. Giờ đây, câu chuyện này trở nên thú vị hơn nhiều.

Khi người khác còn đang cố xây dựng các mô hình dày đặc, DeepSeek lại chọn mô hình hỗn hợp chuyên gia (Mixture of Experts, MoE) khó huấn luyện hơn.

Họ áp dụng phương pháp "nguyên lý đầu tiên", sáng tạo ra thuật toán GRPO mới để thay thế PPO, thuật toán học tăng cường phổ biến nhưng đòi hỏi chi phí cao hơn.

Họ nhận ra rằng, học tăng cường dựa trên phần thưởng có thể xác minh (Reinforcement Learning from Verified Rewards, RLVR) là chiến lược then chốt để nâng cao khả năng suy luận của mô hình.

Họ còn đề xuất chiến lược "dự đoán nhiều token" (Multi Token Prediction), giúp đơn giản hóa giải mã dự đoán, đồng thời làm tín hiệu huấn luyện trở nên dày đặc hơn.

Họ hoàn thiện pipeline "Zero Bubble" để tối ưu hóa hiệu quả sử dụng GPU hạn chế.

Họ phát hành bộ cân bằng tải chuyên gia, giúp mọi người dễ dàng triển khai mô hình MoE. Đặc biệt, qua chiến lược "song song chuyên gia rộng" (Wide Expert Parallel), mô hình có thể phục vụ với batch lớn hơn, giảm đáng kể chi phí suy luận.

Họ sáng tạo ra các cơ chế MLA, DSA, CSA, HCA để giảm nhu cầu KV Cache, đồng thời giữ cho phần tính toán tăng theo độ dài ngữ cảnh càng ít càng tốt.

Họ phát minh Engram, dùng bộ nhớ để đổi lấy hiệu quả tính toán.

Họ còn sáng tạo ra mHC, giúp mở rộng quy mô mô hình mà vẫn đảm bảo huấn luyện ổn định. Rất nhiều ví dụ khác nữa.

Trong cấu trúc kể chuyện "hành trình anh hùng" phổ biến nhất, anh hùng không bao giờ bắt đầu hành trình của mình đã rõ ràng đi đâu. Anh ấy học hỏi dần dần, phát hiện ra sứ mệnh thực sự vĩ đại của mình, và vượt qua nhiều thử thách để hoàn thành nó. Anh ấy gặp nhiều người hoài nghi, nhưng chọn bỏ qua họ. Anh ấy cũng gặp nhiều kẻ ác ý. Anh ấy có những điểm yếu hoặc thiếu sót rõ ràng, nhưng cuối cùng sẽ vượt qua để hoàn thành sứ mệnh. Anh ấy đối mặt với thử thách tưởng chừng không thể vượt qua, nhưng vẫn tìm cách liên minh, học cách sử dụng nguồn lực hạn chế và quý giá một cách khôn ngoan. Chính điều này khiến khán giả muốn cổ vũ cho anh hùng. Đó cũng là lý do DeepSeek thu hút người theo dõi, nhận được sự tôn trọng toàn cầu và cả phản đối.

Như tôi sẽ trình bày chi tiết sau đây, DeepSeek đã đi trên con đường này từ lâu, và dần dần khám phá ra vận mệnh cuối cùng của mình: mục tiêu không phải bán thuê bao lập trình, mà là thúc đẩy hình thành một hệ sinh thái phần cứng AI quy mô 10 nghìn tỷ USD, và giúp công ty đạt mức định giá 1 nghìn tỷ USD. Trong quá trình này, nó cũng sẽ tạo cơ hội cho nhiều nhà sản xuất phần cứng mới ở phương Tây.

Bắt đầu từ một số tính toán KV Cache thú vị

Hãy xem tweet mới nhất của @SemiAnalysis_ rất kịp thời:

DeepSeek đã giải quyết vấn đề này tốt hơn bất kỳ ai rồi!

Chúng ta cùng làm một phép tính KV Cache thú vị. Đừng lo lắng, dù bạn không thích toán học, cũng không sao. Chúng ta sẽ dùng công cụ tính KV Cache mới ra để xem DeepSeek V4 Pro có thể tiết kiệm được bao nhiêu KV Cache, so sánh với các mô hình mới nhất như GLM và Qwen.

Ở đây tôi tính với độ dài ngữ cảnh khoảng 1 triệu, giả định độ chính xác KV là 8 bit, chỉ mục là 16 bit. Bạn cũng có thể tự mở công cụ này thử: https://kvcache.ai/tools/kv-cache-calculator/

Bạn cũng có thể tự mở công cụ thử xem!

Trong trường hợp độ dài ngữ cảnh 1 triệu:

· DeepSeek V4 chỉ cần 5.48GB HBM;
· GLM-5 cần 60GB HBM;
· Qwen3-235B-A22B thì cần tới 89GB HBM.

Lưu ý:

· DeepSeek là mô hình 1.6 nghìn tỷ tham số;
· GLM-5 khoảng 700 tỷ tham số, đã áp dụng MLA và DSA của DeepSeek, nhưng chưa dùng cơ chế nén chú ý mới nhất;
· Qwen3-235B-A22B khoảng 2350 tỷ tham số, dùng cơ chế chú ý GQA.

DeepSeek đã đóng góp nền tảng trong giảm áp lực bộ nhớ. Nếu các đổi mới này được áp dụng rộng rãi, sẽ giảm đáng kể chi phí vận hành cho các agent dài hạn, mở ra nhiều ứng dụng mới.

So sánh KV Cache tiêu thụ trong mô hình 1 triệu token ngữ cảnh và quy mô mô hình

Phương pháp luận đằng sau "điên rồ"

Kích thước KV Cache nhỏ như vậy mà không làm giảm chất lượng mô hình chính là lý do DeepSeek có thể cung cấp cache dài hạn với giá cực thấp — thậm chí còn rẻ hơn 3% so với giá cache hit của Sonnet 4.6, và DeepSeek còn có thể giữ cache trong vài giờ.

Đối với các nhiệm vụ dài hạn, KV Cache nhỏ hơn có nghĩa là có thể tiết kiệm hơn khi đẩy xuống SSD, rồi tải lại khi cần. Như vậy, phụ thuộc vào HBM sẽ giảm đi. Nhìn từ góc độ ngành phần cứng AI Trung Quốc, HBM không chỉ khan hiếm mà còn là loại bộ nhớ khó sản xuất nhất.

Ngoài ra, DeepSeek còn phát triển công nghệ tải KV Cache từ SSD nhanh hơn, đã được mô tả trong bài báo về Dual Path của họ.

DeepSeek V4 nén KV Cache rất mạnh, đến mức có thể không cần thiết bước này nữa.

Vậy, ai là người hưởng lợi trực tiếp nhất từ việc nén KV Cache?

Ai đang cung cấp SSD số lượng lớn? Đừng quên, YMTC (Longsys) đang phát triển thành ông lớn trong lĩnh vực NAND 3D. NAND giúp DeepSeek tránh phải tính lại KV nhiều lần. Ngược lại, DeepSeek cũng tạo ra một thị trường lớn cho NAND và SSD — điều này không chỉ mang lại lợi ích cho Longsys mà còn cho các nhà sản xuất liên quan khác.

Tuy nhiên, không chỉ liên quan đến NAND và SSD.

Bộ nhớ LPDDR cũng có tiềm năng lớn. Nó có thể dùng để chứa trọng số mô hình, rồi theo luồng truyền các trọng số này vào HBM khi cần, giúp giảm áp lực cho HBM. Nhóm SGLang từng đăng một bài blog rất hay về chủ đề này. Hình dưới đây thể hiện nguyên lý hoạt động của giải pháp này.

Dù DeepSeek chưa thiết kế đặc biệt cho giải pháp này, nhưng kiến trúc MoE, việc sở hữu nhiều mô hình chuyên gia, và trọng số 4 bit đều giúp giải pháp dễ thực thi hơn.

Hình minh họa này thể hiện cách bộ nhớ có thể được sử dụng, và cách trọng số mô hình có thể truyền từ LPDDR sang HBM. Rất khuyến khích mọi người đọc bài blog của SGLang.

Nếu kết hợp đổi mới này với KV Cache cực kỳ nhỏ gọn, không mất mát, sẽ giảm đáng kể nhu cầu về HBM.

Vậy, ai sản xuất LPDDR ở Trung Quốc? Đáp án là CXMT, tức Longsys. Họ chỉ kém về tốc độ LPDDR khoảng nửa thế hệ, về mật độ thì kém một thế hệ, không quá lớn.

Ngoài NAND dồi dào, hệ sinh thái AI Trung Quốc trong tương lai gần còn có đủ LPDDR để cung cấp. Liệu điều này có thể giảm áp lực tính toán không? Câu trả lời là có. Tiếp tục xem nào.

Sử dụng bộ nhớ thông minh cũng giúp giảm tải GPU / ASIC

Việc dùng NAND để lưu KV Cache thực ra rất dễ hiểu: nó giúp KV Cache giữ lâu hơn, giảm áp lực cho HBM, đồng thời tránh tính lại KV Cache nhiều lần, giảm tải cho GPU và ASIC.

Vậy, LPDDR có thể hoạt động theo cách tương tự không? Ngoài việc làm nơi "truyền tải trọng số theo yêu cầu" vào HBM, nó còn có thể giảm tải tính toán hơn nữa không?

Câu trả lời là có.

LPDDR có thể dùng để chứa lượng lớn nội dung gọi là Engram. Trong bài báo về Engram của DeepSeek, họ chỉ ra rằng MoE có thể mở rộng quy mô mô hình qua tính toán điều kiện, nhưng Transformer bản thân thiếu cơ chế "tìm kiếm kiến thức" nguyên bản. Do đó, Transformer thường phải mô phỏng quá trình truy xuất một cách kém hiệu quả qua tính toán.

Để giải quyết vấn đề này, DeepSeek đề xuất mô-đun Engram. Nó hiện đại hóa embedding N-gram cổ điển, biến nó thành cơ chế tra cứu dựa trên băm O(1), tạo ra một đường dẫn thưa bổ sung, gọi là bộ nhớ điều kiện (conditional memory).

Cách làm này tiết kiệm tính toán, nhưng cần bộ nhớ để chứa bảng embedding, vốn có thể rất lớn.

Về bản chất, đây là một giải pháp "dùng bộ nhớ đổi lấy tính toán". Nhưng điểm mấu chốt là: từ góc độ chi phí đọc dữ liệu từng bit, "bộ nhớ" rẻ hơn nhiều — một lần tra cứu LPDDR còn rẻ hơn nhiều so với việc dữ liệu đi qua nhiều lớp Transformer để thực hiện một phép chạy xuôi.

Vì vậy, trong các kịch bản quy mô lớn, đây là một sự đổi chác rất có lợi.

Đó chính là cách DeepSeek hy sinh một phần bộ nhớ để đổi lấy tiết kiệm tính toán.

Những lựa chọn cần cân nhắc

Do không có chip với mật độ transistor tương đương, cũng không có công nghệ EUV, các GPU và ASIC Trung Quốc có thể sẽ vẫn bị tụt hậu dài hạn so với GPU phương Tây về sức mạnh tính toán nguyên thủy. Chúng cũng còn khoảng cách rõ rệt về đóng gói tiên tiến. Vì vậy, các lựa chọn này rất đáng để thực hiện, đặc biệt trong bối cảnh Trung Quốc có thể sản xuất hàng loạt NAND và LPDDR.

Nhìn lại chiến lược dài hạn của DeepSeek

Từ các đổi mới này, có thể thấy mục tiêu của DeepSeek không phải là kiếm vài tỷ USD lợi nhuận ngắn hạn. Nhiều lựa chọn họ đã làm cho thấy điều này rõ ràng: chưa có đa phương thức, chưa có mô hình âm thanh, video còn chưa nói tới.

Thực chất, họ tham gia vào một cuộc chơi dài hạn kiên nhẫn, có thể trị giá tới 10 nghìn tỷ USD: thúc đẩy hình thành một hệ sinh thái phần cứng AI thay thế.

Điều này không chỉ để giúp các nhà sản xuất bộ nhớ nội địa Trung Quốc trở thành những nhân tố chủ chốt trong thị trường phần cứng AI toàn cầu, mà còn để giảm thiểu nguồn lực cần thiết, làm cho quá trình huấn luyện và vận hành mô hình AI trở nên tiết kiệm hơn. Nhờ đó, nhiều nhà sản xuất GPU, ASIC, chip mạng có thể trở thành các lựa chọn khả thi.

Song song đó, các đổi mới này cũng sẽ mang lại lợi ích cho hệ sinh thái mã nguồn mở phương Tây, và các nhà sản xuất phần cứng thế hệ mới.

Tất cả các dấu hiệu đều đã xuất hiện. Chúng ta hãy cùng điểm lại các đổi mới DeepSeek đã đề xuất đến nay:

  1. Giới thiệu mô hình hỗn hợp chuyên gia (MoE) và MLA trong DeepSeek V2

DeepSeek đã đưa MoE và MLA vào trong V2. MoE giúp giảm khoảng 40-50% lượng tính toán cần thiết để huấn luyện mô hình trí tuệ cao; MLA giúp giảm KV Cache tới 90%.

Điều này giúp việc đẩy KV Cache lên SSD trở nên hiệu quả hơn nhiều.

Những ý tưởng này lần đầu xuất hiện trong bài báo DeepSeek V2 của họ phát hành tháng 5 năm 2024. Sau đó, chúng cũng là nền tảng cho huấn luyện DeepSeek V3. Thời điểm đó, DeepSeek chỉ dùng 2048 GPU H800 bị giảm hiệu năng, vẫn huấn luyện thành công một hệ thống gần như đạt trình độ của mô hình đóng nguồn.

  1. DSA: giới thiệu trong phiên bản DeepSeek V3.2 Exp, nhằm giảm chi phí tính toán trong các kịch bản ngữ cảnh dài, đồng thời giảm áp lực băng thông HBM.

Vai trò chính của DSA là đảm bảo lượng tính toán không tăng theo độ dài ngữ cảnh. Xem biểu đồ dưới đây: khi độ dài ngữ cảnh tăng, thời gian xử lý của DeepSeek-V3.2 gần như giữ nguyên.

  1. mHC: đề xuất trong bài báo "mHC: Manifold-Constrained Hyper-Connections" của DeepSeek tháng 12 năm 2025.

mHC là một đổi mới về kiến trúc tổng thể của DeepSeek, thiết kế lại cách luồng thông tin giữa các lớp Transformer.

Trước đây, từ ResNet trở đi, mô hình thường dùng kết nối residual tiêu chuẩn, x + F(x). Còn mHC mở rộng residual thành nhiều kênh thông tin song song, cho phép mô hình học cách pha trộn các kênh này. Điểm đặc biệt là ma trận pha trộn được giới hạn thành ma trận ngẫu nhiên đôi (bistochastic), qua phép chiếu Sinkhorn-Knopp, để đảm bảo nằm trong đa diện Birkhoff. Nhờ đó, dù mô hình sâu đến đâu, tín hiệu vẫn giữ được độ ổn định.

Điều này giải quyết được vấn đề cực kỳ nguy hiểm của Hyper-Connections không có giới hạn, từng gây ra sự mất ổn định trong huấn luyện. Ban đầu, Hyper-Connections do ByteDance đề xuất, nhưng nếu không có giới hạn, tín hiệu sẽ tăng lên chóng mặt — ví dụ, ở quy mô 270 tỷ tham số, có thể tăng gấp 3000 lần, dẫn đến huấn luyện thất bại hoàn toàn.

mHC tiêu tốn rất ít tài nguyên: chỉ khoảng 6.7% thời gian huấn luyện thực tế, vì nó không thay đổi FLOPs của attention hay FFN, chỉ thay đổi cách luồng dữ liệu đi qua các lớp.

Nhưng hiệu quả nâng cao rõ rệt: ở quy mô 270 tỷ tham số, mHC giúp mô hình đạt điểm cao hơn trong các bài kiểm tra như BIG-Bench Hard (tăng 7.2 điểm), DROP (tăng 3.2 điểm), GSM8K (tăng 2.8 điểm), MMLU (tăng 1.4 điểm). Những cải thiện này đều trong cùng quy mô mô hình, gần như cùng ngân sách tính toán.

Về bản chất, mHC cung cấp một cấu trúc truyền thông đa dạng, có khả năng biểu đạt cao hơn cho mạng lưới, giúp tăng hiệu năng trên mỗi tham số mà không cần tăng FLOPs.

mHC là một thiết kế kiến trúc phức tạp, nhưng nó mang lại quá trình huấn luyện ổn định hơn, và khả năng thông minh trên mỗi tham số cao hơn.

  1. CSA, HSA: giới thiệu trong DeepSeek V4 tháng 4 năm 2026.

Mục tiêu của CSA và HSA là giảm nhu cầu KV Cache xuống còn 90% bằng cách nén các token KV, đồng thời giảm đáng kể FLOPs, giúp giảm áp lực cho HBM và GPU/ASIC.

  1. Engram: giới thiệu trong quý 1 năm 2026, về cơ bản là dùng bộ nhớ, đặc biệt là LPDDR, để đổi lấy hiệu quả tính toán.

Hình dưới thể hiện rõ ràng: trong cùng ngân sách tham số, Engram mang lại hiệu năng rõ rệt.

  1. Engram: giới thiệu trong quý 1 năm 2026, về cơ bản là dùng bộ nhớ, đặc biệt là LPDDR, để đổi lấy hiệu quả tính toán.

Hình dưới thể hiện rõ ràng: trong cùng ngân sách tham số, Engram mang lại hiệu năng rõ rệt.

Đây là đề xuất của DeepSeek trong bài báo V4 dành cho các nhà sản xuất phần cứng. Tôi chắc chắn, khi trao đổi trực tiếp, họ sẽ còn đưa ra nhiều ý kiến hơn.

  1. Đầu tư vào TileLang cũng hướng tới cùng mục tiêu: DeepSeek không chỉ giải quyết nút thắt về sức mạnh tính toán của riêng mình, mà còn thúc đẩy hệ sinh thái phần cứng Trung Quốc đủ sức cạnh tranh với phương Tây.

Nhờ TileLang, các nhà phát triển chỉ cần viết một kernel, tức là mã nền tảng cho tính toán, rồi có thể chạy thành công trên nhiều nền tảng phần cứng khác nhau, miễn là các nền tảng đó đã có hỗ trợ TileLang.

Tôi dự đoán các phòng thí nghiệm AI Trung Quốc khác cũng sẽ tham gia dần dần. Điều này giúp các nhà sản xuất phần cứng Trung Quốc gián tiếp đối phó với "rào cản CUDA". Đồng thời, nó cũng sẽ khai thác tiềm năng của các phần cứng phương Tây như AMD.

Cần lưu ý rằng nhiều nền tảng phần cứng AI Trung Quốc đã hỗ trợ tương thích CUDA hoặc có lớp dịch mã CUDA. Ví dụ, các chip của Moores, Muxi, Bairen, Tianshu đều đạt độ tương thích cao nhờ lớp dịch mã này. Về lý thuyết, chúng không nhất thiết phải dùng TileLang.

Học tăng cường quy mô lớn và RSI

Khi DeepSeek có thêm nhiều nguồn sức mạnh tính toán hơn, tức là nhiều phần cứng khác nhau, và mô hình cũng giảm nhu cầu về tài nguyên, nó có thể thúc đẩy các dự án huấn luyện có tham vọng hơn, đặc biệt là sau huấn luyện sơ cấp.

Học tăng cường cần tạo ra hàng nghìn tỷ token, tức là sinh ra hàng chục nghìn tỷ dữ liệu theo chuỗi. Quá trình này nhanh chóng trở nên cực kỳ đắt đỏ. Hơn nữa, nếu muốn huấn luyện mô hình với độ dài ngữ cảnh 1 triệu, cần tạo ra các chuỗi dữ liệu dài tương tự. Chỉ khi huấn luyện trên các chuỗi siêu dài này, mô hình mới thực sự hỗ trợ các nhiệm vụ dài hạn.

Ngoài ra, khi có nhiều lựa chọn phần cứng hơn, DeepSeek có thể gọi được nhiều nguồn lực hơn, thúc đẩy nghiên cứu tự động hóa, hay còn gọi là RSI. RSI là khả năng của AI tự thiết kế và thực thi các thí nghiệm. Phương pháp này đòi hỏi thử sai nhiều, chi phí cũng tăng nhanh. Nhưng RSI cực kỳ quan trọng để khám phá toàn bộ không gian thiết kế mô hình. Trước khi tiến tới AGI, rồi sau đó là ASI, DeepSeek cần có khả năng RSI.

Những gì DeepSeek làm ngày hôm nay, ngày mai toàn ngành sẽ bắt kịp

Các đổi mới của DeepSeek về mô hình hỗn hợp chuyên gia, MLA, DSA đã lần lượt được các phòng thí nghiệm AI toàn cầu và Trung Quốc áp dụng.

Ví dụ, nhà phát triển dòng mô hình GLM của ZAI đã dùng MLA và DSA. Kimi, tức MoonShot, cũng dùng MLA và thẳng thắn nói rằng kiến trúc của họ dựa trên kiến trúc của DeepSeek. Ngược lại, DeepSeek còn dùng bộ tối ưu Muon, vốn ban đầu do Kimi (MoonShot) áp dụng trong huấn luyện quy mô lớn.

Cần làm rõ:

MoE lần đầu do Google đề xuất từ năm 2017, tác giả chính là Noam Shazeer. Đóng góp của DeepSeek là ứng dụng quy mô lớn MoE, và sáng tạo ra các kỹ thuật phù hợp riêng.

Muon, hay MomentUm Orthogonalized by Newton-Schulz, do nhà nghiên cứu Keller Jordan đề xuất cuối năm 2024. Nhóm Kimi (MoonShot) là nhóm đầu tiên dùng Muon trong huấn luyện quy mô lớn.

Vậy, câu hỏi kiếm tiền thì sao?

Chúng ta hãy xem ví dụ thú vị của OpenAI.

OpenAI đã mua quyền chọn mua cổ phiếu của AMD và Cerebras với giá thấp hơn, các quyền này liên kết với các mốc tiêu thụ sức mạnh tính toán của họ. Đối với AMD và Cerebras, đây là một thương vụ rất có lợi. Bởi vì, khi OpenAI cam kết dùng phần cứng của họ, khả năng thành công lâu dài của các hãng này sẽ tăng lên rõ rệt.

Trong thông báo của AMD có đoạn:

"Như một phần của thỏa thuận, để phối hợp chiến lược giữa hai bên, AMD đã phát hành quyền chọn mua tối đa 160 triệu cổ phiếu phổ thông AMD cho OpenAI, sẽ dần được cấp dựa trên các mốc đạt được. Lần đầu sẽ cấp khi hoàn thành triển khai 1 GW, các đợt sau sẽ cấp khi mở rộng quy mô mua tới 6 GW. Điều kiện cấp còn liên quan đến việc AMD đạt các mục tiêu giá cổ phiếu nhất định, và OpenAI đạt các mốc kỹ thuật, thương mại để AMD mở rộng quy mô triển khai."

Tôi dự đoán DeepSeek cũng sẽ ký các thỏa thuận tương tự với nhiều nhà sản xuất bộ nhớ, ASIC, CPU, và hệ sinh thái mạng của Trung Quốc, hợp tác sâu để các phần cứng này có thể xử lý các tải công việc AI hàng đầu.

Xét tổng giá trị thị trường cổ phiếu AI của phương Tây, bao gồm các đồng minh Đông Á, đã vượt quá 10 nghìn tỷ USD, cách "hợp tác để thu về cổ phần" này sẽ giúp DeepSeek xây dựng một ngành công nghiệp lớn tương tự Trung Quốc, và chia phần trong đó, cuối cùng đạt mức định giá 1 nghìn tỷ USD.

Điều này không chỉ giúp DeepSeek kiếm nhiều hơn so với mô hình thuê bao truyền thống, mà còn giúp nó thực hiện mục tiêu "khiến AGI mang lại lợi ích cho mọi người". Liang Wenfeng là fan trung thành của Jim Simons, và là một nhà đầu tư đủ thông minh để không bỏ lỡ cơ hội này.

Nếu nhìn lại tất cả những gì DeepSeek đã làm, chỉ có một lời giải thích hợp lý nhất.

Đây là các cổ phiếu AI quan trọng. Trong hình còn chưa bao gồm các nhà cung cấp dịch vụ đám mây quy mô siêu lớn (hyperscalers), cùng nhiều công ty liên quan khác.

[Link bài gốc]

Nhấn để tìm hiểu về các vị trí tuyển dụng của BlockBeats

Chào mừng gia nhập cộng đồng chính thức của BlockBeats:

Nhóm Telegram theo dõi: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản chính thức Twitter: https://twitter.com/BlockBeatsAsia

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 11
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
SmallPosition,BigMouth
· 20phút trước
100 nghìn tỷ đô la? Con số này nghe như trong tiểu thuyết viễn tưởng
Xem bản gốcTrả lời0
ThereAreCatsInTheContract.
· 1giờ trước
Vì vậy, DeepSeek đang chơi một nước cờ lớn hơn nữa
Xem bản gốcTrả lời0
BlackGoldMechanicalHand
· 4giờ trước
100 nghìn tỷ là mục tiêu định giá hay quy mô ngành công nghiệp? Tôi hơi bối rối
Xem bản gốcTrả lời0
GateUser-26374bb4
· 4giờ trước
Cuộc chiến giá cuối cùng, người chiến thắng sẽ là hạ tầng cơ sở
Xem bản gốcTrả lời0
PaperSculptureSquidward
· 4giờ trước
Cuối cùng cũng có người bắt đầu xem xét vấn đề qua đánh giá mô hình rồi
Xem bản gốcTrả lời0
GateUser-34d2b0ab
· 4giờ trước
Nếu thực sự có thể tái cấu trúc nền tảng, thì những ứng dụng này đều là nhu cầu giả
Xem bản gốcTrả lời0
SlippageSailor
· 4giờ trước
Nếu điều này đúng, thì tất cả những người mua token bây giờ đều đang giúp nó luyện binh.
Xem bản gốcTrả lời0
GlitchOrchard
· 4giờ trước
Góc độ này khá thú vị, trước đây thực sự chỉ tập trung vào tầng ứng dụng thôi
Xem bản gốcTrả lời0
ThetaSideEye
· 4giờ trước
Chờ toàn bộ bài viết này, phần giới thiệu của biên tập viên thật biết cách kích thích sự tò mò.
Xem bản gốcTrả lời0
SushiSlippage
· 4giờ trước
Peggy biên dịch? Chất lượng của BlockBeats luôn ổn định
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim