OpenRouter: Khoảng cách AI giữa Trung Quốc và Mỹ chỉ 3~6 tháng, các mô hình mã nguồn mở đang lan rộng khắp thế giới.

OpenRouter điểm danh nhiều đại diện: DeepSeek V4 Flash với giá cực rẻ thâm nhập vào quy trình agentic thực tế, GLM 5.2 với vị trí số một trong đánh giá của Artificial Analysis giành ngôi vương chất lượng, Nemotron 3 Ultra của NVIDIA đại diện cho đội Mỹ hoàn toàn mở. (Tin trước đó: Đếm ngược kết thúc kỷ nguyên định giá cao của AI? Năm lý do cấu trúc khiến Token chắc chắn sẽ giảm giá) (Bổ sung bối cảnh: Anthropic phong tỏa toàn diện Trung Quốc! Các công ty có vốn Trung Quốc trong và ngoài nước đều bị cấm sử dụng Claude, dựng lên tuyến phòng thủ an ninh quốc gia)

Mục lục bài viết

Toggle

  • DeepSeek đẩy giá xuống sàn
  • GLM tiếp quản ngôi vương chất lượng
  • Đội Mỹ: NVIDIA Nemotron 3 Ultra

Hai năm trước, ngôi vương trọng số mở vẫn thuộc về Llama của Meta. Ngày nay, dữ liệu từ OpenRouter, bộ định tuyến LLM trung lập lớn nhất thế giới cho thấy: Llama đã hoàn toàn rơi khỏi bảng xếp hạng. Tính đến tháng 5 năm 2026, các mô hình trọng số mở của Trung Quốc đã chiếm khoảng 61% token tiêu thụ trên nền tảng này, riêng DeepSeek đã chiếm 17,6% trong một tuần.

Đằng sau sự đảo lộn cục diện là một sự thật bị đánh giá thấp: trí tuệ và năng lực của các mô hình trọng số mở ổn định duy trì ở mức sau các phòng thí nghiệm tiên tiến của Mỹ từ ba đến sáu tháng, và khoảng cách này không mở rộng. Đối với bất kỳ tổ chức nào mở hóa đơn đám mây ra, việc chuyển khối lượng công việc từ các mô hình tiên tiến sang trọng số mở, tiết kiệm được là tiền thật.

DeepSeek đẩy giá xuống sàn

DeepSeek V4 Flash là mô hình trọng số mở đầu tiên được nhóm trực tiếp đưa vào quy trình agentic thực tế, được sử dụng như một giải pháp thay thế cho các mô hình tiên tiến cấp Anthropic hoặc OpenAI. Phiên bản V4 Pro lớn hơn đạt 80,6% trên SWE-bench Verified, là điểm cao nhất trong số các trọng số mở (SWE-bench Verified nói một cách đơn giản là một bộ đề thi kiểm tra khả năng viết code của mô hình bằng các nhiệm vụ sửa chữa code GitHub thực tế)

DeepSeek V4-Pro

  • Phí đầu vào không trúng cache: 0,30 USD mỗi triệu Token
  • Phí đầu vào trúng cache: 0,03 USD mỗi triệu Token
  • Phí đầu ra: 0,50 USD mỗi triệu Token

DeepSeek R1 (Chuyên gia suy luận và tư duy sâu)

  • Phí đầu vào không trúng cache: 0,55 USD mỗi triệu Token
  • Phí đầu vào trúng cache: 0,14 USD mỗi triệu Token
  • Phí đầu ra: 2,19 USD mỗi triệu Token

DeepSeek V4-Flash (Lựa chọn tốc độ cực nhanh và chi phí thấp)

  • Phí đầu vào không trúng cache: 0,14 USD mỗi triệu Token
  • Phí đầu vào trúng cache: 0,0028 USD mỗi triệu Token
  • Phí đầu ra: 0,28 USD mỗi triệu Token

Trúng cache có nghĩa là: khi nhập lại cùng một prompt hoặc lịch sử hội thoại, phí đầu vào sẽ giảm đáng kể từ 70% đến 90%.

GLM tiếp quản ngôi vương chất lượng

Mô hình mở GLM 5.2 do z-ai phát hành vào giữa tháng Sáu, được tổ chức đánh giá bên thứ ba Artificial Analysis xếp hạng nhất về trọng số mở trong Intelligence Index v4.1, với 51 điểm, dẫn trước Nemotron 3 Ultra 48 điểm, MiniMax M3 và DeepSeek V4 Pro 44 điểm, chỉ thấp hơn Claude Fable 5 đóng khoảng 5 điểm. Trong bài đánh giá agentic GDPval-AA gần với tình huống thực tế hơn, nó ngang tầm với GPT-5.5.

Điểm mạnh của nó là lập kế hoạch. Thiết kế kiến trúc, tái cấu trúc toàn bộ repo, các nhiệm vụ agent đường dài chạy lâu, GLM 5.2 hiện là giải pháp thay thế di động gần nhất với phong cách Opus. Cái giá phải trả là nó rất thích suy nghĩ: Giá thực tế trung bình có trọng số của OpenRouter là 0,447 USD đầu vào mỗi triệu token, 3,31 USD đầu ra.

Điều đáng chú ý hơn là thời điểm. Vài ngày trước khi GLM 5.2 ra mắt, Mỹ ban hành lệnh kiểm soát xuất khẩu, buộc Anthropic phải ngừng sử dụng rộng rãi Fable 5 và Mythos 5 để ngăn chặn quyền truy cập của công dân nước ngoài. Một bên là các mô hình đóng bị ngắt kết nối vì địa chính trị, một bên là trọng số mở có giấy phép MIT, gần với tiên tiến, ai cũng có thể tự triển khai.

Đội Mỹ: NVIDIA Nemotron 3 Ultra

Trọng số mở không chỉ đến từ Trung Quốc, NVIDIA gần đây cũng phát hành Nemotron 3 Ultra, đạt 48 điểm trên cùng bảng xếp hạng, là trọng số mở mạnh nhất của Mỹ, chỉ đứng sau GLM 5.2.

550 tỷ tham số, 55 tỷ active, kiến trúc kết hợp Mamba-2 và Transformer, sử dụng giấy phép OpenMDW; OpenMDW nói một cách đơn giản là, không chỉ mở trọng số, mà còn mở mã nguồn dữ liệu huấn luyện, công thức, công cụ đánh giá. Tính toán của NVIDIA rất thẳng thắn: mô hình mở được sử dụng càng nhiều, chip Blackwell, CUDA và dịch vụ doanh nghiệp chạy các mô hình này bán càng nhiều.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim