DeepSeek lại trở thành “kẻ sát thủ giá cả” nhưng lần này không chỉ là giá cả

Tác giả: Tiểu Tĩnh

Token đang định hình lại các trục giá trị của thời đại AI, bản xem trước DeepSeek V4 ra mắt, một lần nữa trở thành “kẻ sát giá”, nhưng mang đến một đề bài mới về định giá token. Cùng một lượng Token, chi phí thực tế trong các hệ thống khác nhau có thể chênh lệch một cấp độ, mô hình lớn đang hướng tới hệ thống định giá theo quy mô.

Bản xem trước DeepSeek V4 cuối cùng đã ra mắt, một lần nữa hạ giá của các mô hình lớn, điều này rất phù hợp với “đặc tính” của DeepSeek.

V4-Flash định giá đầu vào 1 nhân dân tệ, đầu ra 2 nhân dân tệ/triệu tokens, sau cache trúng giá chỉ còn 0.2 nhân dân tệ; V4-Pro định giá đầu vào 12 nhân dân tệ, đầu ra 24 nhân dân tệ/triệu tokens, sau cache trúng giá đầu vào 1 nhân dân tệ, ra mắt kèm giảm giá giới hạn thời gian 75% đến ngày 5 tháng 5. Cả hai mô hình đều hỗ trợ ngữ cảnh triệu tokens nguyên bản.

Cuối tuần này, DeepSeek-V4-Pro tiếp tục mở ưu đãi giới hạn thời gian, giảm giá còn 2.5 lần, giá đầu vào của cache trúng còn giảm thêm 10%. Một kỹ sư AI đùa rằng, “Sau cuối tuần, DeepSeek-V4-Pro chỉ còn cách miễn phí đúng 0.025 nhân dân tệ”.

Hiện tại, đã trôi qua đúng hai năm kể từ cuộc chiến giá bắt đầu bằng DeepSeek V2 vào năm 2024. Trong hai năm đó, chi phí suy luận của các mô hình lớn đã giảm theo cấp số nhân, dựa trên tiêu chuẩn chi phí hiệu quả sau khi tính đến cache trúng, giảm tổng cộng thậm chí tới hàng trăm lần.

Nhưng ngày hôm nay, ý nghĩa của việc hạ giá còn quan trọng hơn trước. AI đã chuyển sang mô hình Agent với các nhiệm vụ dài hạn phức tạp, mỗi nhiệm vụ là hàng chục, thậm chí hàng trăm lần gọi mô hình.

Trong bối cảnh ngành này, việc ra mắt bản xem trước DeepSeek V4 đồng thời cũng đi kèm với hai thông tin đáng chú ý. Thứ nhất, ngữ cảnh triệu tokens trở thành tiêu chuẩn nguyên bản của hai mô hình; thứ hai, nhấn mạnh vào giá cache, giảm giá thêm nữa. Sự kết hợp này đẩy giá đầu vào và đầu ra tiêu chuẩn xuống sát mức thấp nhất của các mô hình cùng loại, mục tiêu là giảm tổng hóa đơn của Agent khi hoàn thành một nhiệm vụ xuống mức cạnh tranh nhất.


Token đã có hệ thống giá mới

Nhìn lại việc giảm giá năm 2024, về bản chất là đưa các mô hình lớn từ “thí nghiệm đắt đỏ” vào “công cụ có thể sử dụng”. Thời điểm đó, nhờ đổi mới kiến trúc giúp tăng hiệu quả suy luận, giá gọi mô hình đã nhanh chóng rút xuống mức 1 USD/triệu token, từ khoảng 10-30 USD/triệu token của thời GPT-4.

Hình: Biểu đồ giảm giá token theo cấp số nhân trong hai năm qua

Đây là dạng “giảm giá tuyệt đối”: nhà phát triển có thể gọi mô hình lớn với chi phí thấp, mở ra khả năng ứng dụng thực sự. Nhưng ở giai đoạn đó, giá vẫn phản ánh “chi phí cho mỗi lần gọi”, token được xem như đơn vị tính giá thống nhất, số lần gọi và chi phí gần như tỷ lệ tuyến tính.

Sau hai năm, cấu trúc giá của DeepSeek V4 cũng đã thay đổi. Khi cơ chế cache trở thành phần chính của hệ thống tính phí, token bắt đầu được phân thành hai loại: “tính toán mới” và “tính toán lặp lại”. Trong các kịch bản cache trúng cao, cùng một đầu vào có thể giảm giá xuống còn một phần mười hoặc thấp hơn so với ban đầu. Giá từ một mức cố định chuyển thành biến số liên quan mật thiết đến thiết kế hệ thống.

Hình: Token bị phân thành “tính toán mới” và “tính toán lặp lại”

Nếu chỉ nhìn vào giá niêm yết, V4 vẫn duy trì chiến lược giá thấp của DeepSeek. Trong thị trường nội địa, các mô hình cùng phân khúc như Alibaba Tongyi, Zhipu GLM, Kimi của Moonlight có giá khoảng 1-4 nhân dân tệ cho đầu vào, 4-12 nhân dân tệ cho đầu ra, trong khi V4-Flash chỉ 1 nhân dân tệ cho đầu vào, 2 nhân dân tệ cho đầu ra, nằm trong mức trung bình ngành, chỉ bằng 1/3 đến 1/4.

Phiên bản Pro 12/24 nhân dân tệ gần như tương đương các mô hình cao cấp, nhưng ngữ cảnh triệu tokens là khả năng mặc định chứ không phải tùy chọn nâng cấp. Trên phạm vi toàn cầu, so sánh rõ ràng hơn, giá chỉ bằng một phần mười đến một phần năm của một số đối thủ cạnh tranh. Ví dụ, giá chính thức của GPT-5.5 là: đầu vào 5 USD / triệu token, cache 0.5 USD / triệu token, đầu ra 30 USD / triệu token. Claude Opus 4.7 tiếp tục theo hệ giá của Opus 4.6, khoảng 5 USD / triệu token đầu vào, 25 USD / triệu token đầu ra.

Dù các mô hình cao cấp quốc tế về khả năng tối đa, độ trưởng thành hệ sinh thái, tỷ lệ sử dụng token chưa thể so sánh hoàn toàn, giá cả không phải là yếu tố duy nhất. Nhưng trong cùng một nhiệm vụ Agent, chênh lệch chi phí gọi sẽ ảnh hưởng trực tiếp đến khả năng thương mại. Các nhà cung cấp quốc tế cũng chịu áp lực định giá: Sam Altman từng thừa nhận ChatGPT Pro đang lỗ, Dario Amodei cảnh báo ngành có “định giá quá mức”. Ở mức độ nào đó, hệ thống giá còn phản ánh năng lực cung cấp tính toán, phân bổ R&D và chiến lược thị trường.

Đây cũng là lý do vì sao lợi thế về giá lần này mang ý nghĩa hơn. Năm 2024, ngành tập trung vào “có thể dùng được”; còn trong mô hình AI Agent hiện nay, vấn đề cốt lõi là “có thể vận hành quy mô lớn”.

Một nhiệm vụ Agent thường gồm hàng chục đến hàng trăm lần gọi mô hình, phần lớn đầu vào đến từ system prompt, schema công cụ, và ký ức lịch sử, những nội dung này dễ tái sử dụng, cũng chính là phần dễ “phình to” về chi phí nhất.

Điểm trọng tâm của DeepSeek V4 là giảm thiểu chi phí của phần “tính toán lặp lại” này.

Hình: DeepSeek V4 biến “chi phí” thành biến có thể tối ưu hóa kỹ thuật. Bên trái là khả năng phù hợp, bên phải là đột phá chi phí. Trong ngữ cảnh triệu tokens, công suất suy luận và sử dụng cache giảm mạnh, khiến các nhiệm vụ dài hạn không còn tăng chi phí theo cấp số nhân. Đây chính là động lực thực sự của cuộc chiến giá lần này.

Xét theo quá trình phát triển giá của sản phẩm, sự thay đổi này cũng có thể dự đoán được. Phiên bản V3.2 trước đó có giá đầu vào 2 nhân dân tệ (không trúng cache), 0.2 nhân dân tệ (trúng cache), đầu ra 3 nhân dân tệ; còn V4-Flash giảm đầu vào còn 1 nhân dân tệ, đầu ra còn 2 nhân dân tệ, thay đổi rõ ràng nhất là “giá đầu vào không trúng cache bị cắt giảm một nửa”. Trong các kịch bản gọi nhiều lần của Agent, tổng chi phí đầu vào thường chiếm phần lớn, nên điều chỉnh này có tác dụng lớn hơn nhiều so với giảm giá bề mặt.

Phiên bản Pro với giá 12/24 nhân dân tệ có vẻ đắt hơn Flash gấp nhiều lần, nhưng theo báo cáo kỹ thuật của DeepSeek, “Pro bị giới hạn bởi năng lực tính toán cao cấp, dự kiến trong nửa cuối năm, các siêu nút của Ascend 950 sẽ được sản xuất hàng loạt và triển khai, giá của Pro sẽ giảm mạnh”. Hiểu đơn giản, giá hiện tại của Pro phản ánh hạn chế về cung, chứ chưa phản ánh chi phí thực sự.

Hai mô hình rõ ràng về vị trí: Flash hướng tới các nhiệm vụ song song cao, độ trễ thấp, còn Pro đảm nhận các quy trình Agent phức tạp, tạo mã chuỗi dài, suy luận sâu. Theo báo cáo kỹ thuật, DeepSeek đã bắt đầu đánh giá khả năng của V4 trong các nhiệm vụ code agent thực tế, và so sánh trực tiếp với dòng Claude trong nội bộ.


“Kẻ sát giá” đằng sau

DeepSeek đã làm thế nào để hạ giá?

Cơ chế chú ý truyền thống xử lý văn bản dài, lượng tính toán tăng theo bình phương độ dài chuỗi, ví dụ 1 triệu tokens sẽ tốn 64 lần so với 128K tokens. Đây là lý do khiến “ngữ cảnh triệu tokens” trước đây rất khó thương mại hóa, vì bộ nhớ KV cache tiêu tốn theo chiều dài chuỗi, nếu chạy 1 triệu tokens sẽ phải giảm số lượng song song hoặc tăng gấp nhiều máy, rõ ràng là không khả thi về mặt tài chính.

Đây cũng là lý do các nhà cung cấp quốc tế thường áp dụng chiến lược “cửa sổ ngắn, cửa sổ dài tính phí cao hơn”, Anthropic thậm chí còn làm riêng mức giá cho các đoạn trên 200K, giá gấp đôi.

Hình: CSA (Chú ý rỗng nén) của DeepSeek V4 qua việc nén KV cache rồi chọn Top-k các ngữ cảnh quan trọng, chỉ tính toán phần thông tin quan trọng nhất, giúp giảm đáng kể chi phí tính toán và bộ nhớ trong các văn bản dài.

Hiểu đơn giản, giải pháp của V4 là kết hợp “nén” và “rỗng”. Đầu tiên, nén KV cache của mỗi mười mấy token thành một mục nén (tỷ lệ nén CSA 4, HCA 128), sau đó mỗi truy vấn chỉ tập trung vào top-k mục quan trọng để tính attention. Bước đầu giúp giảm bộ nhớ, bước sau giảm tính toán, đồng thời giải quyết hai điểm nghẽn.

Hình: HCA (Chú ý nén nặng) của DeepSeek V4, qua việc cực đại nén KV cache của chuỗi dài thành ít biểu diễn, giữ thông tin cục bộ trong cửa sổ, đồng thời giảm thiểu chi phí tính toán và lưu trữ, là con đường then chốt giúp chi phí ngữ cảnh triệu tokens giảm mạnh.

Báo cáo kỹ thuật cho biết: Trong ngữ cảnh 1 triệu tokens, FLOPs suy luận của V4-Pro chỉ còn 27% của V3.2, bộ nhớ KV cache chỉ chiếm 10%; V4-Flash còn mạnh mẽ hơn, FLOPs chỉ còn 10% của V3.2, KV cache chỉ 7%. Thêm vào đó, các tối ưu hạ tầng như huấn luyện cảm ứng lượng tử FP4, trình tối ưu Muon, kernel MegaMoE tự phát triển, giúp V4 giảm chi phí từ huấn luyện đến suy luận toàn bộ chuỗi, tối ưu hóa và nén toàn bộ.

Giá thấp là kết quả tự nhiên của kiến trúc. Một thành viên chủ chốt của các công ty mô hình lớn trong nước nói với Tencent Tech: “Giá API của các mô hình lớn trong nước (bao gồm cả của họ) chủ yếu dựa trên khả năng chi phí. Chưa có ai làm ‘giá rẻ’ mà không tính đến chi phí. Vì vậy, lợi thế về chi phí từ nền tảng kỹ thuật là cực kỳ quan trọng.”

Chủ tịch công nghệ của Alibaba Cloud, Zhou Jingren, cũng từng nhấn mạnh: “Mỗi lần giảm giá đều là một quá trình rất nghiêm túc, cần cân nhắc từ sự phát triển toàn ngành, phản hồi của nhà phát triển, doanh nghiệp, chứ không phải là cuộc chiến giá.”

Tại sao lần “giảm giá” này lại quan trọng hơn?

Từ phía nhu cầu, việc giảm giá hệ thống là cấp bách hơn. Trong báo cáo Token Economics mới nhất của Deloitte, ví dụ về AT&T: sau khi đưa hệ thống Agent vào, tiêu thụ Token hàng ngày của họ từ 8 tỷ tăng lên 27 tỷ. Phân tích của Stevens Institute chỉ ra, trong các cuộc đối thoại nhiều vòng, hệ thống Agent có “bẫy tăng gấp đôi” về Token: đến vòng thứ 10, lượng Token gọi cho mỗi lần có thể đạt tới 7 lần vòng đầu tiên.

Giá mô hình quyết định khả năng vận hành thương mại của một Agent.

Tạp chí CIO cách đây ba tuần đã trích dẫn CEO Ayesha Khanna của công ty giải pháp AI Addo AI nhận định: “Nếu bạn chạy một Agent liên tục kết nối với API mô hình tiên tiến, tiêu thụ Token cao, ngữ cảnh dài, suy luận nhiều bước, xuất ra nhiều lần, tính kinh tế sẽ nhanh chóng xấu đi. Trong một số trường hợp, chi phí cho một nhiệm vụ có thể đắt hơn so với việc một người làm việc đó.” Đây chính là rào cản thực tế nhất của thương mại Agent hiện nay, công nghệ có thể chạy, nhưng tính toán không thể theo kịp.

Nhìn lại các động thái của V4 lần này, gần như tất cả đều nhằm vào rào cản này: làm cho ngữ cảnh triệu tokens trở thành khả năng mặc định, giúp Agent không còn phải trả phí vượt quá cho ngữ cảnh dài; giá cache trúng giảm xuống mức thấp nhất ngành, phù hợp đặc điểm lặp lại của hệ thống hệ thống trong Agent. Báo cáo kỹ thuật còn đặc biệt đề cập, V4 trong các kịch bản gọi công cụ còn giữ nguyên toàn bộ nội dung reasoning (V3.2 sẽ bỏ qua nội dung này khi bắt đầu mỗi tin nhắn mới của người dùng), nhằm đáp ứng yêu cầu gọi nhiều vòng của Agent.

V4 có thể kéo thấp toàn bộ chi phí của AI Agent?

Cuối cùng, còn một câu hỏi quan trọng, liệu V4 có thể kéo giảm toàn bộ chi phí của ngành AI Agent không? Lần này có thể phức tạp hơn nhiều.

Trước hết, xem các nhà cung cấp khác có theo kịp không. Nếu V4 lần này gây ra đợt giảm giá đồng bộ tương tự, toàn ngành mới thực sự giảm theo đường cong chi phí. Nhưng như phân tích trên, giá của mô hình chủ yếu do cấu trúc chi phí quyết định, các nhà cung cấp mô hình trong ngắn hạn còn không có nhiều không gian để giảm lợi nhuận, khả năng theo kịp cũng hạn chế.

Thứ hai, về cung cấp năng lực tính toán cao cấp. Như DeepSeek đã đề cập trong báo cáo kỹ thuật, hiện tại, dịch vụ của V4-Pro còn hạn chế về throughput. Việc cung cấp giá thấp ổn định phụ thuộc vào tiến độ triển khai hàng loạt các siêu nút Ascend 950 của Trung Quốc trong nửa cuối năm, và tiến trình kỹ thuật của DeepSeek trong việc tích hợp trên các nền tảng phần cứng khác nhau.

Trong phần 3.1 của báo cáo kỹ thuật, DeepSeek rõ ràng đã xác nhận đã thử nghiệm thành công các giải pháp song song chuyên gia chi tiết trên cả nền tảng GPU của Nvidia và NPU của Huawei, lần đầu tiên đưa Ascend vào danh sách xác nhận phần cứng cùng với Nvidia, nhằm mục tiêu tách rời đường suy luận khỏi phụ thuộc vào phần cứng đơn lẻ. Nếu thành công, điều này sẽ có giá trị lâu dài lớn hơn cho ngành mô hình lớn trong nước.

Thứ ba, liệu cấu trúc Token trong các kịch bản Agent có thể được tối ưu hơn nữa không. Hiện tại, các Agent tiêu thụ rất nhiều token, trong đó phần lớn là lãng phí do chính kiến trúc Agent. Ngoài giảm giá mô hình, cách sử dụng Token của Agent cũng là một câu chuyện khác. Ngay cả khi V4 đã đẩy giá xuống mức sàn, thiết kế Agent kém vẫn có thể khiến hóa đơn vượt quá dự kiến. Đây chính là ý nghĩa của hệ thống Harness đang rất thịnh hành ngày nay.

DeepSeek V4 xem như đã thực sự hạ giá trong bảng giá, đưa khả năng ngữ cảnh triệu tokens thành khả năng mặc định, giá đầu ra có thể dưới 1 USD/triệu tokens, và điều này dựa trên nền tảng kiến trúc vững chắc, không phụ thuộc trợ cấp.

Nhưng lần này, việc toàn ngành giảm chi phí không đơn giản như vậy, vì đối mặt với một đề bài hệ thống phức tạp hơn nhiều.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim