Sau khi tăng giá 83%, token bán chạy, báo cáo tài chính của Zhipu ẩn chứa một điểm ngoặt của ngành

2026-04-08 04:57:45

Tuần thứ ba của tháng 2 năm 2026, trên nền tảng tổng hợp API mô hình AI lớn nhất thế giới OpenRouter đã xuất hiện một loạt dữ liệu mang tính lịch sử: số lượt gọi Token theo tuần của các mô hình AI quy mô lớn của Trung Quốc đã tăng lên 5,16 nghìn tỷ, lần đầu tiên vượt qua mức 2,7 nghìn tỷ của các mô hình Mỹ cùng kỳ. Trong top năm mô hình theo thứ tự gọi toàn cầu, Trung Quốc chiếm bốn vị trí.

Một năm trước, bức tranh trên nền tảng này hoàn toàn là một câu chuyện khác. Chỉ riêng Anthropic đã độc chiếm 42% phần chia Token, các mô hình của Trung Quốc gần như không có mặt trên bàn.

Ngay trong cùng một tuần khi sự đảo chiều này xảy ra, Trí phổ (Zhipu) đã công bố GLM-5 đồng thời tuyên bố tăng giá API 83%. Trong bối cảnh “cuộc chiến giá” vẫn là giai điệu chính của ngành, đây là lần tăng giá đầu tiên của mô hình AI nội địa—và sau khi tăng xong, thị trường vẫn sẵn sàng chi tiền để mua dịch vụ của Trí phổ.

Ngày 31 tháng 3, Trí phổ (02513.HK) công bố báo cáo kết quả hoạt động thường niên đầu tiên sau niêm yết. Doanh thu cả năm 2025 đạt 724 triệu nhân dân tệ, tăng 131,9% so với cùng kỳ, tiếp tục duy trì vị trí của công ty mô hình AI độc lập quy mô doanh thu lớn nhất trong nước. CEO Trương Bằng của Trí phổ tại buổi họp công bố kết quả đã tóm gọn logic tăng trưởng của công ty trong một câu: “Khi mô hình đủ mạnh, bản thân API chính là mô hình kinh doanh tốt nhất.” Ông còn phán đoán thêm: “Chất lượng của trí tuệ tạo ra quyền định giá, mức độ sử dụng sâu của doanh nghiệp và người dùng tạo ra tăng trưởng của Scaling.”

Điểm cốt lõi của báo cáo tài chính này không nằm ở một con số doanh thu cụ thể nào, mà là mô hình kinh doanh và cơ chế tăng trưởng giống như Anthropic đang diễn ra trên chính Trí phổ. Đây là một mốc tọa độ ở cấp độ ngành mô hình AI nội địa.

Thời khắc bước ngoặt trong thương mại hóa mô hình AI quy mô lớn của Trung Quốc

Từ nửa cuối năm 2024 đến đầu năm 2025, ngành mô hình AI quy mô lớn của Trung Quốc đã trải qua một cuộc chiến giá khốc liệt.

Byte đã đưa giá đầu vào cho suy luận xuống 0.0008 nhân dân tệ/1.000 tokens, Alibaba Thông Nghĩa (Tongyi) Qianwen đã giảm giá 97% đối với mô hình chủ lực ngang cấp GPT-4, và Trí phổ chính mình cũng từng tuyên bố giảm giá GLM-4-Plus 90%. Ở giai đoạn đó, gần như mọi người chơi đều làm một việc giống nhau: dùng trợ giá để đổi lấy hệ sinh thái, dùng giá rẻ để đổi lấy lượng gọi. Cung vượt cầu, giành giật người dùng mới là việc quan trọng hàng đầu.

Cuộc chiến giá đích thực đã hoàn thành sứ mệnh lịch sử của nó. Khi Token đủ rẻ, thói quen sử dụng của nhà phát triển cá nhân và doanh nghiệp đã được nuôi dưỡng, và “nền tảng” lượng gọi cơ bản được hình thành.

Nhưng hồi kết của cuộc chiến giá không phải là ai rẻ hơn, mà là ai khiến khách hàng cảm thấy “đắt nhưng đáng”.

Ngày 12 tháng 2 năm 2026, bước ngoặt đã đến. Ngay trong ngày GLM-5 được phát hành, Trí phổ đồng thời thông báo điều chỉnh mang tính cấu trúc đối với hệ thống giá Coding Plan, với mức tăng giá tổng thể từ 30% trở lên. Trong quý 1 năm 2026, mức tăng giá API của Trí phổ lên tới 83%. Phản ứng của thị trường không phải là rời đi, mà là tranh mua—cháy hàng, hạn mua, xin lỗi—đủ cả một dây chuyền.

Tại sao tăng giá lại bán đứt hàng?

Coding không phải trò chat, mà là bối cảnh năng suất sản xuất thực sự. GLM-5 vững vàng giữ vị trí số một mã nguồn mở trong các bảng xếp hạng lập trình cốt lõi như SWE-bench Verified, và có thể hoàn thành các tác vụ kỹ thuật hệ thống như tái cấu trúc backend, gỡ lỗi sâu bằng mức can thiệp thủ công rất ít. Người phát triển trả tiền cho một “kỹ sư” như vậy, là quyết định hoàn toàn khác với việc trả tiền cho một chatbot. Gói Pro 149 nhân dân tệ/tháng đối với lập trình viên không phải là chi phí, mà là khoản đầu tư—tiết kiệm thời gian sẽ chuyển thẳng thành hiệu suất bàn giao để đạt doanh số.

Trương Bằng tại buổi họp công bố kết quả nói rất thẳng: “Nhà phát triển là nhóm nhạy cảm nhất với ngưỡng giới hạn của trí tuệ.” Trí phổ năm 2025 là công ty đầu tiên tại Trung Quốc ra mắt gói lập trình GLM Coding Plan; quy mô nhà phát triển trả phí tăng nhanh lên vượt 242k, và lượng gọi Token tăng gấp 15 lần trong 6 tháng.

Xét từ cơ cấu doanh thu, báo cáo này cho thấy một bức tranh hoàn toàn khác với ấn tượng cũ trên thị trường: lượng gọi API tăng bùng nổ, tỷ trọng doanh thu tư nhân hóa (private) co lại đáng kể. Ngày nay, thu nhập mang tính thường xuyên từ API đã trở thành động cơ chính cho kết quả kinh doanh của Trí phổ; tăng trưởng không còn dựa vào ký kết theo hợp đồng, mà là nhờ vào lượng sử dụng tự tăng.

Khi mô hình chỉ là công cụ trò chuyện kèm theo, giá là biến số chi phí; khi mô hình có thể giao trả một hệ thống hoàn chỉnh, giá là biến số năng suất. Trần của biến số thứ nhất là sự kiên nhẫn của người dùng, còn trần của biến số thứ hai là chi phí nhân lực mà người dùng tiết kiệm được.

Sự thay đổi này đã trực tiếp viết lại định giá của thị trường dành cho Trí phổ. Công ty theo dự án xem PE, còn công ty nền tảng xem ARR—hai logic định giá hoàn toàn khác nhau. Ngày nay, theo cách nhìn của thị trường, Trí phổ đã không còn thu phí theo dự án nữa, mà là thu tiền cho thuê theo mức độ gọi. Trước là kinh doanh thâm dụng lao động, sau là kinh tế nền tảng.

Trương Bằng quy logic quyền định giá về một công thức: Giá trị thương mại trong thời đại AGI = ngưỡng giới hạn trí tuệ × quy mô tiêu hao Token. “Ngưỡng giới hạn trí tuệ quyết định quyền định giá, quy mô tiêu hao Token quyết định quy mô giá trị.” Ông tiếp tục phán đoán: “Khi mô hình đủ mạnh, bản thân API chính là mô hình kinh doanh tốt nhất. Chất lượng trí tuệ tạo ra quyền định giá, việc doanh nghiệp và người dùng sử dụng sâu tạo ra tăng trưởng của Scaling.”

Sau khi tăng giá 83% mà lượng gọi không giảm mà còn tăng mạnh, chính là lần kiểm chứng thực chiến đầu tiên cho phán đoán này. Anthropic ở bên kia đại dương cũng đi theo cùng một con đường—ARR 4Bỷ USD vào cuối năm 2025, Claude Code chỉ trong 9 tháng đã đạt 380Bỷ USD cho một sản phẩm đơn lẻ.

Khi việc lập trình từ viết các đoạn mã chuyển cấp lên hoàn thành một hệ thống kỹ thuật, lượng tiêu hao Token và đơn giá có thể tăng đồng thời. Trí phổ đang tái hiện lại con đường này tại Trung Quốc.

“Anthropic của Trung Quốc” bước vào giai đoạn bùng nổ

Muốn hiểu sâu hơn “trọng lượng” của báo cáo tài chính này của Trí phổ, cần phải xem trước một nhóm con số từ bên kia đại dương.

Anthropic mất 15 tháng để đạt một lần tăng trưởng chưa từng có: ARR tăng từ 19Bỷ USD vào cuối năm 2024 lên 2.5Bỷ USD vào tháng 3 năm 2026. Lượng người dùng của họ chỉ bằng 5% của ChatGPT, nhưng doanh thu lại đạt hơn 40% của OpenAI; hiệu quả tiền hóa trên mỗi người dùng cao gấp 8 lần. Khoảng 80% doanh thu của Anthropic đến từ dịch vụ gọi API cấp doanh nghiệp; trong Fortune 100, 70% là khách hàng của Claude.

Bài học của Anthropic không nằm ở việc họ lớn đến mức nào, mà ở chỗ họ chứng minh được một điều: số người dùng là chỉ báo về quy mô, còn độ sâu của việc gọi có thể trở thành “tiền thật”.

Trương Bằng trong buổi họp công bố kết quả đã nói rõ rằng ông đặt Trí phổ vào cùng tọa độ đó. Ông thẳng thắn cho biết công ty sẽ “tiếp tục đi theo con đường thương mại của Anthropic ở Trung Quốc, lấy trí tuệ mô hình làm nền tảng và lấy nền tảng API làm động cơ”.

Dữ liệu đang hiện thực hóa phán đoán này. Doanh thu cả năm 2025 của Trí phổ đạt 724 triệu nhân dân tệ, tăng 131,9%, vượt mục tiêu do công ty đặt ra từ đầu năm; biên lợi nhuận gộp cả năm 41%, vượt xa chuẩn của ngành. Nền tảng MaaS API có ARR khoảng 19Bỷ nhân dân tệ, trong 12 tháng qua tăng gấp 60 lần. Biên lợi nhuận gộp của nền tảng MaaS đã tăng gần 5 lần lên 18,9%.

Nhưng điều cho thấy “bánh xe quay” còn rõ ràng hơn cả các con số tài chính, là “mật độ được tích hợp”.

Trong số 10 công ty Internet hàng đầu của Trung Quốc, đã có 9 công ty tích hợp gọi sâu mô hình GLM mỗi ngày. Trong vòng 24 giờ sau khi mỗi thế hệ mô hình GLM được phát hành, các nền tảng sản phẩm lớn như TRAE/Coze của ByteDance, Qoder của Alibaba, CodeBuddy của Tencent, CatPaw của Meituan, WanQing của Kuaishou, Baidu Intelligent Cloud và WPS Office đã có kết nối chính thức.

Nhìn về đuôi dài, hơn 4 triệu người dùng doanh nghiệp và nhà phát triển tiếp tục gọi liên tục trong môi trường sản xuất thực tế, phủ hơn 218 quốc gia và khu vực trên toàn cầu. GLM đã trở thành mô hình mặc định của các nền tảng coding quốc tế như Windsurf và OpenCode, và OpenRouter xếp hạng số 1 trong các mô hình trả phí.

Mật độ được tích hợp chính là mật độ của tính không thể thay thế.

Bánh xe có thể quay được, điểm khởi đầu là hiệu quả của mô hình. Dòng GLM tiếp tục duy trì vị trí số một trong các mô hình mã nguồn mở toàn cầu, số một trong các mô hình của Trung Quốc, và trong tất cả các mô hình trên thế giới luôn bám sát GPT, Claude và Gemini, ổn định bước vào nhóm đầu tiên của AI toàn cầu.

Cách GLM-5 xuất hiện bản thân đã là một tuyên bố định vị. Nó lên đầu bảng nhiệt OpenRouter dưới danh phận ẩn danh “Pony Alpha”; các nhà phát triển ở Thung lũng Silicon lần lượt đoán rằng đó là Claude Sonnet 5 hoặc DeepSeek-V4—sau khi được làm rõ, chỉ trong ngày đầu ra mắt đã xử lý 9Bỷ Token và 206k yêu cầu.

Việc cải thiện biên lợi nhuận gộp cũng đang xác nhận hiệu suất của bánh xe. Thông qua co-design phối hợp giữa phần mềm và phần cứng, cùng với phía suy luận, cơ chế chú ý thưa động đã đưa chi phí triển khai xuống còn 50% so với trước mà không làm mất hiệu năng; ở phía khách hàng, việc tăng giá tạo ra sàng lọc theo hướng tích cực—những khách hàng sẵn sàng trả tiền cho hiệu quả thì tỷ lệ giữ chân và mức độ gọi lại càng cao.

Trương Bằng mô tả vòng lặp tăng trưởng tích cực này là: “Bước đột phá của ngưỡng giới hạn trí tuệ thúc đẩy lượng tiêu hao Token tăng theo hàm số mũ—mô hình càng mạnh, bối cảnh sử dụng càng sâu, lượng gọi Token càng lớn.” “Phản hồi tích cực trong kinh doanh hỗ trợ chúng tôi đầu tư thêm vào năng lực tính toán và nghiên cứu phát triển, nâng hơn nữa ngưỡng giới hạn trí tuệ; bánh xe này đã bắt đầu quay.”

Điểm bùng nổ tiếp theo trong kinh tế học Token

Ngày 26 tháng 2, CEO NVIDIA Hoàng Nhân Kiện tại cuộc họp điện thoại báo cáo tài chính đã nhấn mạnh nhiều lần với thị trường một nhận định: “Tính toán chính là doanh thu, suy luận chính là doanh thu.” Không có năng lực tính toán thì không thể tạo Token; không có Token thì không thể tạo ra tăng trưởng doanh thu.

Dữ liệu toàn cầu chứng thực quan điểm đó. Trong năm qua, lượng gọi Token theo tuần của top 400kô hình trên OpenRouter đã bùng nổ từ 1,24 nghìn tỷ lên gần 14 nghìn tỷ, mức tăng hơn 10 lần. Không chỉ số lượng người dùng tăng, mà độ sâu tiêu hao Token trên mỗi người dùng cũng đang nhảy vọt: mỗi khi Agent hoàn thành một nhiệm vụ lại cần thêm nhiều bước, nhiều lệnh gọi công cụ hơn, và mức tiêu hao Token cộng dồn theo từng bước.

Trong thời đại Internet, miễn phí là con đường đúng đắn vì chi phí biên của lưu lượng tiến gần về 0. AI lại hoàn toàn khác. Mỗi lần suy luận đều đang đốt năng lực tính toán, Token tự nhiên mang giá. Điều này có nghĩa là các công ty AI ngay từ ngày đầu đã ngồi trên một mô hình kinh doanh “thu phí theo lượng”.

Trương Bằng đưa ra khung đánh giá của mình: từ khóa của Trí phổ trong năm 2025 là “ngưỡng giới hạn trí tuệ”, còn năm 2026 là “số lượng Token”. “Ứng dụng, tiêu biểu là OpenClaw, đã kích hoạt cơn sốt tiêu hao Token. Chúng tôi sẽ tiếp tục tăng đầu tư, ép hiệu năng suy luận tới giới hạn—không phải để kiếm lời trong ngắn hạn, mà để hỗ trợ đường cong theo hàm số mũ của lượng tiêu hao Token chất lượng cao đang đi lên không ngừng.”

Trong năm qua, Trí phổ đã trải qua 5 thế hệ mô hình; câu chuyện mà họ nói chính là cách lượng tiêu hao Token được khuếch đại liên tục.

Trương Bằng đã phân tích đường đi theo khuôn mẫu này: ở giai đoạn AI coding, mô hình học cách viết mã nhưng bản chất vẫn là “trợ thủ”; ở giai đoạn vibe coding, Code thì rẻ, Idea mới đáng giá; ở giai đoạn agentic engineering, AI tự hiểu nhu cầu như một kỹ sư, lập kế hoạch, viết, thử nghiệm và lặp lại sửa chữa; đến giai đoạn long horizon, AI cần làm việc liên tục trong thang thời gian dài hơn như một chuyên gia dày dạn, và giao trả kết quả.

Mỗi lần chuyển nấc, mức tiêu hao Token cho một nhiệm vụ lại được khuếch đại theo bội số so với giai đoạn trước. **Theo thông tin,**GLM-5.1 sắp được phát hành chính thức sẽ tiến hành tối ưu mang tính hệ thống cho các long horizon task, nhắm đúng tới nấc thang tiếp theo.

Sự bùng nổ của OpenClaw khiến xu hướng này từ lý thuyết thành hiện thực. Tháng 3 năm 2026, Trí phổ ra mắt Claw Plan; trong 2 ngày lên sóng, số người dùng đăng ký đã vượt 100k, và trong 20 ngày đã vượt 400k. AI Agent chạy tự chủ 7×24 giờ; mỗi instance đều là “nhân viên số” liên tục đốt Token.

Nhu cầu đang bùng nổ, đầu cung không thể lơ là. GLM-5 đã hoàn tất việc thích ứng suy luận sâu với 7 nền tảng chip nội địa như Huawei Ascend, Moore Threads và Cambricon. Trương Bằng cho biết, với các chip nội địa, dòng GLM đã cho ra hiệu suất suy luận sánh ngang với các chip hàng đầu quốc tế. Năng lực tính toán tự chủ và kiểm soát được, sản lượng Token sẽ không bị nghẽn cổ chai.

Trí phổ cô đọng toàn bộ logic này thành một khái niệm: TAC (Token Architecture Capability), năng lực kiến trúc Token. TAC = lượng gọi thông minh × chất lượng thông minh × hiệu quả chuyển hóa kinh tế.

Trương Bằng cho rằng, tiêu chuẩn đo lường giá trị trong tương lai không còn là nắm được bao nhiêu thông tin, mà là năng lực của một “kiến trúc sư Token” trong việc thúc đẩy mô hình lớn và Agent hoàn thành các nhiệm vụ phức tạp. “Mục tiêu của Trí phổ là trở thành hạ tầng cơ sở giúp nâng cao TAC của toàn xã hội, để mọi giọt Token đều có thể chuyển hóa thành phần tăng thêm kinh tế có thể giao trả.”

Anthropic dùng cùng logic đó để đạt định giá 1Bỷ USD và ARR 1.7Bỷ USD. Đỉnh trần của mô hình MaaS tại Trung Quốc nằm ở đâu—báo cáo tài chính này là điểm tọa độ chính thức đầu tiên.

Trong ngành mô hình AI quy mô lớn, bốn chữ “cung không đủ cầu” còn có sức thuyết phục hơn bất kỳ con số nào trong báo cáo tài chính. Khi một công ty bắt đầu xin lỗi vì “cháy hàng”, mọi tranh luận về quyền định giá có thể dừng lại.

_* Nội dung trên không cấu thành lời khuyên đầu tư, không phản ánh quan điểm của nền tảng đăng tải; thị trường có rủi ro, đầu tư cần thận trọng; hãy tự đánh giá và ra quyết định. _

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.