DeepSeek V4 gây chấn động: Thung lũng Silicon đang "xây tường", Trung Quốc đang "làm đường"

null

Chữ | Alter

Ngày 24 tháng 4 sáng, DeepSeek V4 chậm trễ cuối cùng đã lộ diện chân dung thật.

Trong ngày đó, DeepSeek-V4-Pro đã leo lên đỉnh bảng mô hình mã nguồn mở của Hugging Face, hai “đột phá mang tính hạt nhân” được bàn tán sôi nổi:

Thứ nhất là khả năng xử lý ngữ cảnh siêu dài hàng triệu cấp, nhưng bộ đệm KV chỉ bằng 10% của V3.2, được kỹ sư của Amazon ca ngợi sẽ giải quyết vấn đề thiếu hụt HBM;

Thứ hai là khả năng thích ứng với chip nội địa, trong quá trình phát triển đã hợp tác chặt chẽ với Huawei, và đã nhanh chóng thích ứng với các chip nội địa như Ascend, Cambricon.

Trùng hợp thay, vị trí thứ hai trong bảng mô hình mã nguồn mở của Hugging Face chính là Kimi K2.6, được phát hành và mở nguồn vào đêm ngày 20 tháng 4.

Nếu ở phía bên kia Thái Bình Dương, việc hai mô hình có hàng tỷ tham số “va chạm” nhau, không tránh khỏi việc tranh luận về định giá và phạm vi kinh doanh, thì trong nước lại diễn ra một cảnh tượng hoàn toàn khác: không có cảnh “bóc phốt lẫn nhau”, không có chiến tranh PR ngầm, thậm chí còn “thay đổi chiến thuật” ở tầng nền tảng công nghệ.

Phía sau sự “bất thường” này, ẩn chứa sự khác biệt về tuyến đường công nghệ AI giữa Trung Quốc và Mỹ: Silicon Valley đang điên cuồng “xây tường cao”, cố gắng giữ lợi ích đã có bằng cách đóng mã nguồn; các nhà sản xuất mô hình lớn trong nước thì chọn “phá bỏ tường”, tiến tới hợp tác tiến hóa dựa trên nền tảng mã nguồn mở.

01 Thung lũng Silicon sa vào “trò chơi quyền lực”

Khác với con đường mở mã nguồn của các mô hình lớn trong nước, các “ông lớn” AI của Silicon Valley như OpenAI, Anthropic, Google Gemini đều là những người ủng hộ mã nguồn đóng.

Các đổi mới công nghệ tiên tiến bị khóa trong các trung tâm dữ liệu riêng của họ, đối mặt với áp lực về chi phí tính toán và kỳ vọng của thị trường vốn, tinh thần “Silicon Valley” nổi tiếng về mở và hợp tác dần biến mất, các đối thủ không thể tránh khỏi rơi vào “trò chơi quyền lực” kiểu thắng-thua.

Trong hai năm qua, “trận chiến ngầm” về công nghệ đã biến thành tranh cãi công khai, phương thức điển hình là “giành lấy sự chú ý”: tại các thời điểm quan trọng khi đối thủ ra mắt sản phẩm mới, nhanh chóng tung ra bản cập nhật lớn của chính mình để kiềm chế tiếng vang của đối phương, đã trở thành thao tác thường lệ của Silicon Valley.

Ngay từ tháng 5 năm 2024, OpenAI và Google đã cùng lúc ra mắt các sản phẩm AI mới, một bên tuyên bố GPT-4o dẫn đầu toàn cầu, bên kia nói rằng dòng Gemini có thể bao phủ toàn bộ hệ sinh thái và toàn bộ quá trình. Cuối cùng, CEO của hai công ty đều không thể giữ yên, công khai chế nhạo nhau trên mạng xã hội.

Không chỉ là cuộc “đấu tranh dai dẳng” với Google, cuộc cạnh tranh giữa OpenAI và Anthropic cũng bước vào giai đoạn quyết liệt: ngày 16 tháng 4, Anthropic vừa ra mắt mô hình mới Claude Opus 4.7, chỉ hơn hai giờ sau, OpenAI đã công bố cập nhật lớn cho Codex, với khẩu hiệu “Codex cho hầu hết mọi thứ ())”. Ai cũng nhận ra, việc trùng hợp về thời gian này không phải là ngẫu nhiên, mà là một “cuộc tấn công” có chủ đích của OpenAI nhằm vào Anthropic.

Ngoài “trận chiến ngôn luận”, việc “bóc phốt” lẫn nhau cũng trở thành chuyện thường ngày ở Silicon Valley.

Anthropic ngày 7 tháng 4 tuyên bố doanh thu hàng năm đạt 30 tỷ USD, vượt qua OpenAI với 25 tỷ USD.

Chỉ một tuần sau, Giám đốc doanh thu của OpenAI đã thẳng thắn trong thư nội bộ gửi toàn thể nhân viên rằng: doanh thu 30 tỷ USD của Anthropic là quá mức, vì họ dùng phương pháp “tổng cộng”, tính cả phần trích từ các nhà cung cấp dịch vụ đám mây như Amazon, Google vào tổng doanh thu của mình, dẫn đến việc ước tính doanh thu bị thổi phồng khoảng 8 tỷ USD.

Cách “phản bác” đối thủ trong thư nội bộ này không phổ biến trong ngành công nghệ, mục đích chủ yếu là muốn gửi thông điệp tới các nhà đầu tư — rằng câu chuyện tăng trưởng của Anthropic là bịa đặt.

Và khi có sự thù địch, nó sẽ ảnh hưởng đến mọi quyết định một cách toàn diện.

Sau khi Anthropic từ chối xóa bỏ các điều khoản an toàn đặc thù trong hợp đồng với Pentagon, OpenAI đã nhanh chóng tuyên bố đã hợp tác với Bộ Quốc phòng Mỹ chỉ vài giờ sau đó.

Trong trận “siêu cúp” năm 2026, Anthropic đã chi mạnh để phát sóng một quảng cáo, nội dung là “Quảng cáo đang tiến vào lĩnh vực AI, nhưng sẽ không vào Claude.” Có thể coi là một lời “đối đầu” trực diện với OpenAI, mới bắt đầu thử nghiệm chức năng quảng cáo…

Tại sao “đồng môn” ngày xưa lại trở thành kẻ thù không đội trời chung?

Nguyên nhân nằm ở logic nội tại của mô hình kinh doanh đóng mã nguồn: sự tồn tại của mô hình này dựa trên việc xây dựng “hàng rào bảo vệ”, và tiền đề của việc xây dựng hàng rào là ngăn chặn sự lan truyền công nghệ, độc quyền các năng lực sản xuất tiên tiến nhất. Thêm vào đó, sự không tương thích về tuyến đường công nghệ, đối lập trong câu chuyện sản phẩm, tự nhiên hình thành một cân bằng Nash: ai “ngừng bắn” trước, thì thương hiệu của người đó sẽ sụp đổ, cuối cùng rơi vào vũng lầy nội chiến ngày càng sâu.

02 Tiền tuyến mã nguồn mở “tiến hóa hợp tác”

Quay lại trong nước, kịch bản diễn biến hoàn toàn khác.

Thời điểm hơn một năm trước, sự xuất hiện của DeepSeek-R1 đã chặn đứng đà phát triển của các startup mô hình lớn, trở thành “bước chân” đầu tiên trong cuộc đua. Khác biệt lớn nhất so với Silicon Valley là DeepSeek không đóng vai “cá mập” nuốt hết các cá thể trong hồ, mà như cá tra kích hoạt toàn bộ hệ sinh thái mô hình lớn Trung Quốc, mọi người đều đón nhận mã nguồn mở.

Ví dụ rõ ràng nhất là sự phát triển gần như đồng bộ của “Mặt tối của tháng” — các nhóm khởi nghiệp bắt đầu từ năm 2023, đều có quy mô nhỏ nhưng mật độ nhân lực cao, đều là tín đồ của “Scaling Law”.

Tháng 7 năm 2025, “Mặt tối của tháng” đã ra mắt mô hình mã nguồn mở đầu tiên của thế giới có hàng nghìn tỷ tham số là Kimi K2, trong báo cáo kỹ thuật đã thẳng thắn nói rằng sử dụng kiến trúc MLA do DeepSeek mở nguồn. Đối với mô hình lớn, nỗi ám ảnh lớn nhất là giới hạn bộ nhớ, nhưng kiến trúc MLA có thể cách mạng hóa bằng cách giảm thiểu bộ nhớ KV Cache lên hơn 93%.

Với “tiêu chuẩn ngành” do DeepSeek góp phần đặt ra, các nhóm mô hình lớn trong nước như “Mặt tối của tháng” không cần phải tự làm lại từ đầu, giảm đáng kể chi phí suy luận.

Câu chuyện chưa dừng lại ở đó.

Xem xét tài liệu kỹ thuật của DeepSeek V4, mô tả chi tiết kiến trúc của mô hình, trong đó một nâng cấp quan trọng là thay đổi phần lớn các bộ tối ưu từ AdamW sang Muon, giúp tốc độ hội tụ nhanh hơn, ổn định hơn trong quá trình huấn luyện.

Trong tài liệu kỹ thuật của Kimi K2.6, cũng đề cập đến bộ tối ưu Muon, đạt hiệu quả gấp đôi trong cùng lượng huấn luyện.

Hai mô hình đều đề cập đến bộ tối ưu Muon, do nhà nghiên cứu độc lập Keller Jordan đề xuất vào cuối năm 2024 trong blog của mình. Cũng gặp phải vấn đề giống AdamW, nhóm “Mặt tối của tháng” đã thực hiện các cải tiến kỹ thuật quan trọng cho Muon vào đầu năm 2025, thêm khả năng Weight Decay, kiểm soát RMS, đặt tên là MuonClip.

“Mặt tối của tháng” đã tiên phong kiểm nghiệm tính ổn định của bộ tối ưu Muon trên Kimi K2, đạt được trạng thái “Zero Loss Spike” trong suốt quá trình huấn luyện tiền huấn luyện. DeepSeek khi huấn luyện mô hình lớn V4 cũng sử dụng bộ tối ưu Muon đã được chứng minh này.

Cần nhấn mạnh rằng, quá trình “tiến hóa hợp tác” của các mô hình mã nguồn mở không dẫn đến đồng nhất hóa, mà đang đi theo con đường “hòa hợp nhưng khác biệt”.

Ví dụ, DeepSeek-V4 tập trung vào giải quyết các năng lực cốt lõi của mô hình nền, củng cố giới hạn hiệu suất của các mô hình mã nguồn mở toàn cầu, cung cấp nền tảng cho toàn ngành có hiệu năng sánh ngang các mô hình cao cấp đóng mã nguồn; Kimi K2.6 tập trung vào ứng dụng kỹ thuật Agent, giải quyết điểm đau của thực thi tự chủ dài hạn của mô hình lớn, mở ra con đường quan trọng để mô hình lớn vào các môi trường sản xuất thực tế.

Trong toàn bộ quá trình này, không có đàm phán thương mại kéo dài, không có cuộc chiến tranh về bằng sáng chế gay gắt. Trong hệ sinh thái mã nguồn mở, đổi mới công nghệ đang tự do chảy như nước, ai làm tốt sẽ được mọi người dùng.

Hưởng lợi từ hệ sinh thái mã nguồn mở, bổ sung lẫn nhau về tuyến đường công nghệ. Các nhà sản xuất mô hình lớn trong nước đã thể hiện một khả năng khác ngoài Silicon Valley.

03 Mỹ “xây tường”, Trung Quốc “xây đường”

Cùng với việc ca ngợi sự hợp tác tiến hóa của mã nguồn mở, cần đối diện với một thực tế thương mại.

Hiện tại, doanh thu hàng năm của OpenAI và Anthropic đều đạt trên trăm tỷ USD, còn các nhà sản xuất mô hình lớn hàng đầu trong nước mới chỉ vượt qua mốc 1 tỷ USD.

Giá trị thị trường của OpenAI trên thị trường thứ cấp khoảng 880 tỷ USD, của Anthropic đã tăng vọt lên khoảng 1 nghìn tỷ USD, còn định giá của Kimi và DeepSeek trong vòng gọi vốn mới lần lượt là 18 tỷ USD và 20 tỷ USD.

Có người ca ngợi rằng giá trị thị trường của các nhà sản xuất mô hình lớn Trung Quốc bị đánh giá thấp, cũng có người cho rằng: “Liệu có thể chuyển đổi danh tiếng công nghệ thành tiền thật hay không, đó là thử thách sinh tử của các nhà sản xuất trong nước.” Một thời gian, tranh luận về “hiệu suất chi phí” của mã nguồn mở trở nên sôi động.

Để nhìn rõ kết quả cuối cùng, có thể bắt đầu từ giai đoạn cạnh tranh của các mô hình lớn:

Giai đoạn đầu là “đua tham số, đua Benchmark”. Đến cuối tháng 4 năm 2026, giai đoạn này gần như kết thúc, các bảng xếp hạng đã không còn chênh lệch rõ ràng về điểm số.

Giai đoạn thứ hai là “đua hiệu quả huấn luyện, đua chi phí suy luận, đua đổi mới kiến trúc”. Chính là giai đoạn hiện tại, cũng là kết quả tất yếu của áp lực về chi phí tính toán.

Giai đoạn thứ ba sẽ là “đua hệ thống Agent, đua hệ sinh thái, đua nhà phát triển”. Khi Token từ miễn phí trở thành “nhiên liệu” thực thi nhiệm vụ, mức độ phồn vinh của hệ sinh thái sẽ quyết định sự sống còn.

Hệ sinh thái mã nguồn mở trong nước đang ở vị trí nào? Chúng tôi đã tìm ra hai bộ dữ liệu so sánh trực quan.

Một là chi phí huấn luyện.

GPT-5 ra mắt tháng 8 năm 2025, chi phí huấn luyện vượt quá 500 triệu USD; cùng kỳ, Kimi K2 Thinking tiêu tốn khoảng 4,6 triệu USD; DeepSeek chưa công bố chi phí huấn luyện dòng V4, nhưng dòng V3 chỉ tiêu tốn 5,576 triệu USD… Các nhà sản xuất mô hình lớn trong nước chỉ dùng chưa đến phần nhỏ của OpenAI, nhưng đã huấn luyện ra các mô hình cùng trình độ.

Một là lượng gọi API.

Sau năm 2026, nền tảng tổng hợp đa mô hình OpenRouter cho thấy: dưới tác động của các sản phẩm Agent như OpenClaw, lượng token tiêu thụ toàn cầu đã tăng theo cấp số nhân, đội “giấc mơ mã nguồn mở” của Trung Quốc, dựa vào danh tiếng “dễ dùng và rẻ”, đã liên tục vượt Mỹ trong nhiều tuần.

Nguyên nhân không khó lý giải.

Hệ sinh thái mã nguồn mở của Trung Quốc đã vận hành theo “bánh đà phản hồi tích cực”: Công ty A mở nguồn công nghệ nền, Công ty B áp dụng và tối ưu kỹ thuật, rồi phản hồi kết quả và kinh nghiệm cho toàn bộ hệ sinh thái. Nếu sự tiến hóa của mô hình đóng dựa trên việc tích tụ lượng lớn tính toán theo chiều tuyến tính, thì con đường mã nguồn mở sẽ dẫn đến sự bùng nổ của đổi mới công nghệ qua các cuộc va chạm.

Theo báo cáo của JPMorgan, từ 2025 đến 2030, lượng token suy luận AI của Trung Quốc sẽ đạt mức tăng trưởng kép hàng năm khoảng 330%, từ 10 nghìn tỷ token năm 2025 lên 3,9 triệu tỷ token năm 2030, tăng gấp 370 lần.

Nói cách khác, năm 2026 vẫn còn trong giai đoạn bùng nổ AI, trong 5 năm tới còn có hàng trăm lần cơ hội tăng trưởng, chưa phải là lúc kết luận cuối cùng.

Chính sự tự tin vào cơ hội dài hạn này, khi các ông lớn Silicon Valley đang cố gắng xây tường, các nhà sản xuất mô hình lớn trong nước chọn cách hợp tác bổ sung, liên tục củng cố con đường tiến tới AGI.

04 Ghi chú cuối cùng

Ai sẽ là người cười cuối cùng trong làn sóng AI rực rỡ này? Câu trả lời không chỉ liên quan đến mô hình, mà còn liên quan đến khả năng kiểm soát và chủ động về tính toán. Nếu so mô hình như “bom nguyên tử”, thì khả năng tính toán nội địa không bị phong tỏa chính là “ tên lửa” đưa bom nguyên tử lên trời.

Điều đáng mừng là, sự hòa nhập ngày càng chặt chẽ giữa mô hình nội địa và khả năng tính toán nội địa: trong tài liệu kỹ thuật của DeepSeek V4, đã đưa Ascend NPU và GPU của Nvidia vào danh sách xác minh phần cứng; trong bài báo mới nhất, Moon Dark Side đã chạy dự đoán và giải mã mô hình lớn trên các chip khác nhau, mở ra cánh cửa cho chip nội địa tham gia quy trình suy luận mô hình quy mô lớn.

Đầu năm 2025, DeepSeek R1 đã giúp các mô hình lớn nội địa có cơ hội ra sân; đến năm 2026, hệ sinh thái mô hình lớn mã nguồn mở trong nước đang hợp tác cùng nhau không ngừng tạo ra nhiều “quy tắc” mới cho sân chơi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim