Chứng khoán CITIC: DeepSeek mô hình mới thế hệ tiếp theo dự kiến sẽ tiếp tục theo đuổi dòng mô hình mã nguồn mở có hiệu suất cao và chi phí hợp lý

robot
Đang tạo bản tóm tắt

Chứng khoán CITIC, báo cáo nghiên cứu cho biết: từ năm 2026 đến nay, các nhà sản xuất mô hình lớn nội địa tập trung nâng cấp năng lực Agent và năng lực mã nguồn, đồng loạt cho ra mắt các mô hình mới. Chúng tôi cho rằng mô hình thế hệ tiếp theo của DeepSeek sắp được phát hành có khả năng sẽ tiếp tục lộ trình mô hình mã nguồn mở với hiệu suất chi phí cao, về năng lực sẽ đạt được chức năng ghi nhớ mạnh hơn và xử lý ngữ cảnh siêu dài; đồng thời, khi tinh tiến năng lực mã nguồn và Agent, cũng bù đắp các điểm yếu đa phương thức, mang đến cơ hội đầu tư mới theo các hướng: nhà sản xuất gốc của mô hình, ứng dụng AI và cơ sở hạ tầng AI.

1、Nhà sản xuất gốc của mô hình: Mô hình thế hệ mới của DeepSeek được kỳ vọng có thể bắt tay với các mô hình nội địa khác, thúc đẩy AI của Trung Quốc tăng tốc tiến ra thế giới; đồng thời quá trình huấn luyện mô hình giúp giảm chi phí thêm một bước, khi các token rẻ hơn thúc đẩy tổng lượng gọi API của các mô hình lớn trên toàn cầu tăng lên. 2、Ứng dụng AI: Việc mô hình được “bình đẳng hóa” giúp giảm bớt nỗi lo trong thị trường về câu chuyện mâu thuẫn giữa mô hình và ứng dụng, hỗ trợ triển khai AI Agent trong hàng nghìn ngành nghề, có lợi cho các công ty ứng dụng AI có rào cản. 3、Cơ sở hạ tầng AI: Giảm chi phí kéo theo tăng mức sử dụng khiến AI Infra được hưởng lợi, cơ sở hạ tầng AI nội địa và các mô hình nội địa đi cùng hướng.

Nội dung toàn văn như sau

Máy tính | DeepSeek: Triển vọng cho thế hệ mô hình tiếp theo

Từ năm 2026 đến nay, các nhà sản xuất mô hình lớn nội địa tập trung nâng cấp năng lực Agent và năng lực mã nguồn, đồng loạt cho ra mắt các mô hình mới. Chúng tôi cho rằng mô hình thế hệ tiếp theo của DeepSeek sắp được phát hành có khả năng sẽ tiếp tục lộ trình mô hình mã nguồn mở với hiệu suất chi phí cao; về năng lực sẽ đạt được chức năng ghi nhớ mạnh hơn và xử lý ngữ cảnh siêu dài; đồng thời tinh tiến năng lực mã nguồn và Agent, đồng thời bù đắp các điểm yếu đa phương thức, mang đến cơ hội đầu tư mới trong các hướng: nhà sản xuất gốc của mô hình, ứng dụng AI và cơ sở hạ tầng AI.

Mã nguồn, Agent, đa phương thức “nguyên sinh”: Hướng nâng cấp của các mô hình lớn toàn cầu.

Trong lĩnh vực lập trình AI, việc nâng cấp khung huấn luyện, sử dụng toàn bộ kho mã và dấu vết quy trình kỹ thuật làm dữ liệu huấn luyện, đồng thời đưa vào chuỗi suy nghĩ sâu hơn với thực thi nhiều bước và tự sửa chữa, đã tạo nên việc “AI Coding” từ công cụ bổ sung mã trở thành tác nhân thông minh tự chủ ở cấp độ dự án. Harness Engineer được kỳ vọng sẽ giúp nhân sự kỹ thuật chuyển từ việc chỉ là kỹ sư mã nguồn sang vai trò người quản lý Agent để làm cho AI phát huy hiệu năng tối đa. Ở lĩnh vực cụm nhiều Agent, sản phẩm mang tính hiện tượng OpenClaw đã thể hiện rõ tiềm năng của hệ thống nhiều Agent; các hãng trong nước như Zhipu, MiniMax, Tencent, Kimi… đều cho ra mắt các sản phẩm “tựa hình con tôm hùm”, giải phóng năng suất sản xuất của “nhân viên số”. Ở lĩnh vực đa phương thức nguyên sinh, kiến trúc đa phương thức nguyên sinh đã trở thành hướng chủ đạo; mã hóa nhúng lai giúp đột phá nhanh, nhưng các mô hình trong nước trong những khâu then chốt như tương tác âm thanh-video theo thời gian thực và suy luận liên tục xuyên phương thức vẫn cần được cải thiện.

▍ Mô hình lớn nội địa: Tăng tốc lặp lại nâng cấp, năng lực tiếp tục đột phá.

1)MiniMax: Năng lực mã nguồn được nâng cấp thêm; bài kiểm tra M2.7 SWE-Pro đạt 56.22%, vượt Gemini 3.1 Pro; trong kịch bản giao nộp dự án hoàn chỉnh theo đầu-cuối (end-to-end) ở bài kiểm tra VIBE-Pro đạt 55.6%, sánh ngang Claude Opus 4.6, giúp hiểu sâu hơn logic vận hành của hệ thống phần mềm. Đồng thời, các mô hình dòng M2 tham gia vào các kịch bản như RL trong quá trình huấn luyện của M2.7 để thực hiện tự lặp tiến.

2)Zhipu: GLM-5 đưa vào DSA và tự nghiên cứu kiến trúc “Slime”; có thể với can thiệp thủ công rất ít tự chủ hoàn thành các tác vụ kỹ thuật hệ thống như lập kế hoạch dài hạn và thực thi kiểu Agentic, tái cấu trúc phần backend và gỡ lỗi sâu; năng lực gọi công cụ và thực thi tác vụ nhiều bước (MCP-Atlas 67.8%), truy xuất trực tuyến và hiểu thông tin (Browse Comp 89.7%) tiệm cận hoặc thậm chí vượt mức của các mô hình dẫn đầu ở nước ngoài.

3)Kimi: Kimi 2.5 giới thiệu năng lực thị giác để tự động tách rời logic tương tác, tái tạo mã; đồng thời ra mắt chế độ cụm nhiều Agent. Trong các bộ bài kiểm tra ứng dụng tác nhân thông minh như HLE-Full, BrowseComp, DeepSearchQA, đạt điểm tương đương với GPT-5.2, Claude 4.5 Opus, Gemini 3 Pro; Moonshoot áp dụng chiến lược giảm giá, giá API thấp hơn K2 Turbo từ hơn 30%.

4)Xiaomi: Xiaomi MiMo-V2-Pro trong các bộ kiểm tra đo lường năng lực gọi Agent của mô hình như ClawEval, t2-bench, tiến gần hoặc thậm chí dẫn đầu một số mô hình top đầu nước ngoài; ở phiên bản thử nghiệm nội bộ giai đoạn đầu, với mã ẩn danh Hunter Alpha, đã được đưa lên OpenRouter; trong thời gian lên mạng, nhiều ngày liền đứng đầu bảng xếp hạng theo lượt gọi hằng ngày. Chúng tôi đánh giá cao việc nền tảng mô hình lớn giúp Xiaomi cung cấp sức mạnh cho toàn bộ hệ sinh thái “người-xe-nhà”, hiện thực hóa bước nhảy về năng lực AI.

▍ Triển vọng DeepSeek: Tiếp tục lộ trình hiệu suất chi phí cao, tinh tiến năng lực văn bản dài, mã nguồn, Agent và đa phương thức.

DeepSeek V3.2 được công bố vào tháng 1 năm 26 áp dụng kiến trúc attention thưa (DSA) + chuyên gia hỗn hợp (MoE), giúp tăng hiệu suất và giảm chi phí cho huấn luyện và suy luận; giá định giá token đầu vào/đầu ra lần lượt giảm 60%/75%; đồng thời điểm ở các benchmark cho năng lực mã nguồn và các tác vụ nhiều Agent được cải thiện đáng kể. Kết hợp hướng tiến hóa mô hình của DeepSeek và bài báo về module Engram có sự tham gia chữ ký của Liang Wenfeng, chúng tôi cho rằng các mô hình thế hệ mới như DeepSeek V4.0 có thể sẽ tích hợp Engram vào kiến trúc đã trưởng thành DSA+MoE; thông qua lưu trữ theo phân lớp các thông tin then chốt thường dùng, có thể làm giảm theo hàm mũ lượng tính toán của lớp attention trong kiến trúc Transformer; từ đó hiện thực xử lý ngữ cảnh siêu dài, đồng thời nâng cao hiệu quả của mô hình, tinh tiến năng lực mã nguồn và Agent, và bù đắp các điểm yếu đa phương thức.

▍ Các yếu tố rủi ro:

Phát triển công nghệ cốt lõi AI và mở rộng ứng dụng không đạt kỳ vọng; giảm chi phí tính toán (compute) không đạt kỳ vọng; AI bị sử dụng sai cách gây ra ảnh hưởng xã hội nghiêm trọng; rủi ro an toàn dữ liệu; rủi ro an toàn thông tin; cạnh tranh trong ngành gia tăng.

▍ Chiến lược đầu tư: Chúng tôi đề xuất tập trung vào các mạch đầu tư chính sau.

1)Nhà sản xuất gốc của mô hình: Mô hình thế hệ mới của DeepSeek được kỳ vọng có thể bắt tay với các mô hình nội địa khác, thúc đẩy AI của Trung Quốc tăng tốc tiến ra thế giới; đồng thời quá trình huấn luyện mô hình giúp giảm chi phí thêm một bước, khi các token rẻ hơn thúc đẩy tổng lượng gọi API của các mô hình lớn trên toàn cầu tăng lên.

2)Ứng dụng AI: Việc mô hình được “bình đẳng hóa” giúp giảm bớt nỗi lo trong thị trường về câu chuyện mâu thuẫn giữa mô hình và ứng dụng, hỗ trợ triển khai AI Agent trong hàng nghìn ngành nghề, có lợi cho các công ty ứng dụng AI có rào cản;

3)Cơ sở hạ tầng AI: Giảm chi phí kéo theo tăng mức sử dụng khiến AI Infra được hưởng lợi, cơ sở hạ tầng AI nội địa và các mô hình nội địa đi cùng hướng.

(Nguồn tin: 第一财经)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim