Claude Code 80% lời nhắc nói xóa là xóa, Anthropic dùng Fable 5 làm mẫu: "Giảm chi phí" của ngành AI mới chỉ bắt đầu.

“Fable 5 这个价格远高于中国程序员一天工资。写代码一天烧几百万 token 已经很节约了,然后一看账单几千 rmb。”

Đây là thực tế đang diễn ra. Theo dữ liệu mới nhất, chi tiêu của chính Anthropic cho sức mạnh tính toán đã gấp 2.3 lần chi lương. Với chi phí toàn bộ của một kỹ sư cao cấp là 224.000 USD, mỗi kỹ sư của Anthropic tương ứng với khoảng 515.000 USD chi phí tính toán mỗi năm. Nghĩa là: con người còn chưa đắt bằng mô hình.

Trước những hóa đơn như vậy, ngay cả Claude cũng phải bắt đầu tiết kiệm token.

Claude Code: Đốt token để đổi lấy ảo giác "tôi rất năng suất"

Gần đây, trong ngành lại xuất hiện một từ mới: Token Apocalypse (Ngày tận thế của token).

Từ token maxing đến token apocalypse, báo hiệu một sự thay đổi mô hình rất lớn thực sự đang xảy ra trong ngành AI. Vào tháng 3, tháng 4 năm nay, mọi người còn khoe khoang mình đã dùng bao nhiêu token, thậm chí coi nó như một bảng xếp hạng. Nhưng sử dụng AI không tự động đồng nghĩa với tiết kiệm tiền, vì vậy mọi người bắt đầu nhấn mạnh hơn vào chi phí của từng token.

Tinh tế hơn, các mô hình lớn còn đang mở rộng nhiều công việc vốn dĩ không cần dùng AI. Bây giờ chúng ta không muốn tự đọc PDF, không muốn tự xem văn bản dài, mọi thứ đều muốn AI tóm tắt. Hoặc dùng AI chuyển những thứ này thành slide, rồi đưa cho người khác, người đó có thể lại dùng AI để đọc những slide đó... AI giống như đang cố gắng bơm thêm một lớp giá trị vào những công việc vốn đã rất ảo, đồng thời cũng âm thầm đẩy hóa đơn lên cao.

Hiện nay, mất kiểm soát chi phí đã trở thành bình thường. Amazon, Adobe, Atlassian, Citigroup và các công ty khác bắt đầu kiểm soát chặt chẽ việc sử dụng AI:

  • Hạn chế cấp độ mô hình: Nhân viên ở một số công ty bị cấm sử dụng các mô hình cao cấp như Claude Opus, buộc phải hạ cấp xuống phiên bản rẻ hơn;
  • Đặt giới hạn cá nhân: Uber đặt giới hạn token 1500 USD mỗi tháng cho mỗi kỹ sư;
  • Ngừng hoàn toàn quyền truy cập: Các tổ chức như Citibank đã hạn chế hoàn toàn quyền truy cập vào các công cụ AI cao cấp, nhân viên không đạt mục tiêu sử dụng thậm chí bị thu hồi tài khoản doanh nghiệp. Trước đó, CTO của Uber từng thừa nhận rằng công ty đã dùng hết ngân sách AI cả năm chỉ trong vài tháng. Walmart gần đây cũng đã dừng sử dụng một số công cụ.

Các công ty lớn hoặc đang tìm mọi cách tiết kiệm, hoặc trực tiếp phanh gấp việc lãng phí token. Do đó, thông điệp nhân viên nhận được vô cùng mâu thuẫn: một bên là "AI có thể tăng hiệu suất của bạn lên 100 lần, phải dùng", bên kia là "đừng làm công ty phá sản nữa".

Đây cũng là vấn đề điển hình nhất trong đợt phổ cập đầu tiên của các công cụ AI: khi công cụ được tung ra, không có đủ rào cản để ngăn công ty tiêu hàng triệu đô la vào các mô hình ngôn ngữ lớn, cũng không có cơ chế nhắc nhở nhóm rằng token đang bị đốt nhanh chóng. Dù là chatbot hay công cụ viết mã, nhiều sản phẩm đặt "có thể sử dụng" lên hàng đầu, còn quản lý chi phí, hạn ngạch sử dụng, phân cấp mô hình và quản lý ngữ cảnh đều bị xếp sau.

Nhưng Claude Code về bản chất không phải là công cụ năng suất, mà là một công cụ tiếp thị.

Mục tiêu thiết kế của nó rất rõ ràng: khiến bạn cảm thấy mình đang năng suất. Boris, người phụ trách dự án Claude Code, suy nghĩ ban đầu khi làm sản phẩm này là: "Nếu mô hình trở nên đủ thông minh, mã sẽ trở nên như thế nào? Tôi muốn sử dụng những thứ này như thế nào?" — điểm xuất phát không phải là "làm thế nào để giúp nhà phát triển tiết kiệm token", mà là "làm thế nào để thể hiện sự thông minh của mô hình".

Anthropic sẵn sàng đốt một lượng lớn token cho "cảm giác" này — dù là tiền của bạn hay tiền của chính họ. Tiêu 200 đô la trong năm phút, với Claude Code không phải là tai nạn, mà là thiết kế. Logic cơ bản của nó là: vấn đề có thể giải quyết bằng cách đốt nhiều token hơn, tuyệt đối không tìm cách tiết kiệm token hơn. Tất cả sub-agent, tất cả các hiệu ứng UI hào nhoáng, tất cả các reasoning trace dài dòng, đều không phải vì hiệu quả, mà là để khi bạn nhìn vào màn hình, bạn nghĩ "mô hình này thật thông minh, thật giỏi".

Đằng sau đó là một vòng lặp tiếp thị được thiết kế tinh vi: bạn đốt một lượng lớn token, đổi lấy cảm giác "năng suất", do đó thấy Claude tốt, và tiếp tục sử dụng nó. Anthropic thậm chí sẵn sàng tự chịu một phần lớn chi phí token để đổi lấy sự công nhận về mặt cảm xúc này. Đây cũng là lý do tại sao ứng dụng desktop của họ rõ ràng đầu tư không đủ — mục tiêu của Claude Code chưa bao giờ là trở thành một công cụ tốt, mà là trở thành "cửa sổ trưng bày tốt nhất" cho khả năng mô hình của Anthropic.

Và chính triết lý thiết kế "đốt token để đổi lấy trải nghiệm" này đã khiến Claude bị OpenAI bỏ xa về hiệu quả token.

OpenAI luôn cố gắng nén token. Từ nén reasoning trace, đến tối ưu hiệu quả của bản thân mô hình, triết lý của họ là: dùng ít token hơn, làm cùng một công việc. Codex 5.5 là ví dụ điển hình nhất.

Mặc dù các mô hình như Fable 5 rất thông minh, nhưng so với các mô hình khác, hiệu quả của nó không cao, biểu đồ này từ Deep SWE cho thấy rõ vấn đề. Nếu so sánh cùng một nhóm mô hình, càng rõ rệt hơn: GPT-5.5 medium chỉ dùng 20.000 token, nhưng đã đạt được điểm số đáng kinh ngạc; trong khi Opus 4.8 dùng 50.000 token, điểm số lại thấp hơn.

Đây là bức tranh trực tiếp nhất của hai con đường: ngành công nghiệp đang hoảng loạn, Claude đang đốt, OpenAI đang tiết kiệm. Và câu hỏi tiếp theo là — muốn giảm chi phí, điều đầu tiên cần cắt là gì? Câu trả lời là: những prompt đã chất đống quá lâu.

Nợ Prompt của Claude Code: Chất càng nhiều, nợ càng lớn

Trong bài phát biểu mới nhất, Anthropic cho biết họ đã xóa 80% system prompt của Claude Code.

Thành viên nhóm kỹ thuật của Anthropic, Tariq Shihipar, giải thích rằng điều này phản ánh một sự thay đổi căn bản trong cách hướng dẫn mô hình AI — trước đây, người ta cho rằng càng nhiều chỉ thị, càng nhiều ví dụ, mô hình hoạt động càng tốt; nhưng bây giờ, logic này không còn đúng nữa. Mô hình mới Fable 5 còn giàu trí tưởng tượng hơn cả các ví dụ do chính họ đưa ra, ví dụ lại trở thành giới hạn.

Tất nhiên có yếu tố tiếp thị, anh ta đã khoe khoang khả năng của Fable: "Ví dụ dễ giới hạn mô hình, vì nó thực sự giàu trí tưởng tượng hơn các ví dụ chúng tôi đưa ra". Nhưng một sự thật không thể tránh khỏi: ngay cả Anthropic cũng bắt đầu cắt giảm system prompt.

Vậy tại sao trước đây cần nhiều prompt như vậy?

Trong một hai năm qua, giới AI Coding đã hình thành một lối suy nghĩ cố định: ngữ cảnh càng lớn càng tốt, hướng dẫn công cụ càng nhiều càng tốt, system prompt càng đầy đủ càng tốt. Mô hình không biết cách tổ chức dự án? Viết Agents.md. Mô hình không biết cách dùng công cụ? Viết tool descriptions. Mô hình không đủ chủ động? Viết hướng dẫn hành vi. Mô hình không đủ ổn định? Tiếp tục thêm ràng buộc vào system prompt.

Không thể phủ nhận, system prompt từng là năng lực cốt lõi của các công cụ AI Coding. Chỉ cần điều chỉnh nhỏ prompt cho LLM, có thể mang lại cải thiện hiệu suất đáng kể. Nếu cùng một mô hình trong Codex, Cursor, OpenCode và Copilot cho cảm giác khác nhau, thì gần như chắc chắn là do sự khác biệt nhỏ trong prompting.

Đây cũng là lý do Cursor từng dành nhiều thời gian thử nghiệm system prompt, làm A/B testing, tinh chỉnh cách prompt cho các mô hình khác nhau. So với sử dụng Opus trong Claude Code, harness của Cursor có thể cải thiện đáng kể hiệu suất mô hình, một số benchmark đo được cải thiện lên tới 10% đến 30%. Sự khác biệt cốt lõi thường là vài đoạn prompt.

Nhưng vấn đề là hễ prompt có ích, nhóm sẽ liên tục thêm vào. Mô hình nào đó thích dùng lung tung công cụ, thêm một quy tắc; mô hình nào đó không đủ chủ động, thêm một đoạn khuyến khích; mô hình nào đó tìm kiếm quá nhiều, thêm một hạn chế; mô hình nào đó không hiểu ngữ cảnh dự án, lại thêm một file markdown. Mỗi lần thêm đều có lý do, nhưng về lâu dài, system prompt bắt đầu trở thành một gánh nặng ngữ cảnh thường trực khổng lồ.

Vấn đề ở chỗ: system prompt không miễn phí. Mỗi lần gọi, nó đều phải được đọc vào, tính phí, chiếm ngữ cảnh.

Sau khi Claude Code tích hợp tất cả các công cụ và chức năng vào bên trong, system prompt từng phình lên tới 65.000 token; ngay cả khi tắt hầu hết chức năng, vẫn còn 12.000 token. Nói cách khác, mô hình chưa kịp viết một dòng mã, đã phải đeo một cuốn sách hướng dẫn. So sánh, Pi khi khởi động chỉ có ngữ cảnh dưới một nghìn token.

Rắc rối hơn, nợ prompt còn khó phát hiện hơn nợ mã.

Mã cũ, thường lộ ra khi sửa chức năng, chạy thử nghiệm, xử lý lỗi. Prompt cũ, lại có thể chỉ khiến mô hình âm thầm trở nên tồi hơn. Người dùng thấy "Claude Code dạo này không thông minh như trước", hoặc "mô hình mới không mạnh như quảng cáo", nhưng nguyên nhân thực sự có thể là system prompt cũ không theo kịp mô hình mới.

Khi prompt từ cạnh tranh biến thành gánh nặng, Anthropic chọn xóa 80%, cũng có thể cải thiện thêm hiệu quả token.

"Thuế nói nhảm" của Claude: Nói thêm một chữ, tốn thêm một khoản tiền

Claude Code có quá nhiều lời nói nhảm.

Năm nay có một plugin tên Caveman nhanh chóng nổi tiếng, chuyên giải quyết vấn đề này. Tên của nó dịch thẳng là "người hang động", nghĩa là nói như người nguyên thủy — không lịch sự, không thêm ngữ pháp dư thừa, không đặt từ đệm, chỉ giữ lại ý chính.

Thoạt nhìn, nó nghe như một trò đùa. Nhưng một khi hiểu ra, bạn sẽ thấy nó giải quyết một vấn đề rất thực tế trong LLM: quá nhiều lời nói nhảm, quá nhiều token, chi phí cũng không cần thiết tăng cao.

Và nguồn gốc của nó, chính là nhắm vào Claude Code.

"Tôi tạo ra Caveman vào đầu tháng 4, vì lúc đó tôi sử dụng Claude Code nhiều và nhận thấy rất nhiều chi phí token của tôi bị lãng phí vào những chữ không cần thiết: xã giao, diễn đạt mơ hồ, từ chuyển tiếp, và những biểu hiện kiểu trò chuyện không thực sự quan trọng trong agent loop." Người tạo ra Caveman, Julius Brussee nói.

Đánh giá của Brussee cho thấy Caveman so với đầu ra mặc định có thể giảm 65% đến 75% token đầu ra, hiệu quả vẫn vượt trội so với lệnh "hãy ngắn gọn" thông thường. Nó chủ yếu nén ngôn ngữ xung quanh, không ảnh hưởng đến mã, lệnh, đường dẫn, URL, tên hàm và những phần cần chính xác.

Theo báo cáo, giám đốc kỹ thuật của OpenAI, Shayne Sweeney cũng đã đóng góp mã cho dự án này để hỗ trợ Codex.

Thú vị hơn, OpenAI đã áp dụng kiểu ngôn ngữ này vào quá trình suy nghĩ từ lâu.

Một số reasoning trace bị rò rỉ (không phải reasoning summary hiển thị bên ngoài) đã cho thấy manh mối. Nội dung không giống tiếng Anh thông thường, mà giống tốc ký kỹ thuật đã nén:

"Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period."

Những câu này nghe có vẻ buồn cười, thậm chí hơi lộn xộn, nhưng trọng tâm của chúng không phải tính dễ đọc, mà là hiệu quả token. Khi mô hình suy luận nội bộ, nó không cần giữ phép lịch sự, đầy đủ và trôi chảy như khi nói với người dùng. Nó chỉ cần giữ lại hành động, đối tượng, phán đoán và bước tiếp theo. Nói cách khác, miễn là câu trả lời cuối cùng bình thường, mô hình hoàn toàn có thể dùng một ngôn ngữ ngắn hơn, thô hơn, tiết kiệm token hơn để hoàn thành suy nghĩ, nhằm theo đuổi hiệu quả token điên cuồng.

Điều này còn hữu ích hơn cả trong khâu viết Prompt. Nén reasoning token mang lại lợi ích lớn hơn, vì agent thực hiện nhiều bước, suy nghĩ của bước trước trở thành đầu vào của bước sau. Mỗi lần mô hình "nghĩ" ít đi một đoạn, tiết kiệm được không chỉ vài token hiện tại, mà còn là chi phí lặp lại trên toàn bộ chuỗi thực thi phía sau.

Đây chính là một khác biệt rõ ràng giữa OpenAI và Claude.

Claude luôn dễ trò chuyện hơn, và cũng giống một trợ lý suy nghĩ và diễn đạt bằng ngôn ngữ hoàn chỉnh. Chỉ cần nhìn reasoning trace của nó dài hơn nhiều, có thể đoán nó có thể đang dùng tiếng Anh thông thường. Đầu ra và reasoning của nó thường dài hơn, do đó phụ thuộc nhiều hơn vào cửa sổ ngữ cảnh lớn để chứa những nội dung này.

Đây cũng là lý do Claude mặc định sử dụng cửa sổ ngữ cảnh 1 triệu token. Nhiều người nghĩ đó là vì nó muốn chứa codebase lớn hơn, nhưng nguyên nhân thực sự đơn giản hơn: những thứ Claude tạo ra quá dài, không có cửa sổ lớn như vậy thì không chứa nổi. Chúng thậm chí còn kém trong việc nén, khi bạn khôi phục một luồng cũ, Claude sẽ khuyên bạn không nên giữ toàn bộ ngữ cảnh, mà hãy thử compact. Vì chúng không giữ lại reasoning trace — thực tế, chúng xóa những thứ này sau 10 đến 20 phút, vì reasoning token quá kém hiệu quả, không đáng để giữ lại, nếu không chi phí sẽ vô lý đến mức không thể chấp nhận.

Trong khi đó, cửa sổ ngữ cảnh token của mô hình OpenAI khoảng 200.000 hoặc ít hơn, nhưng vì ngay từ đầu chúng đã nén bằng ngôn ngữ ngắn gọn này, nên vẫn ổn.

Một chi tiết đáng suy ngẫm: Nếu Anthropic sửa được vấn đề "nói nhảm quá nhiều", doanh thu của họ sẽ giảm rõ rệt. Nếu nhà phát triển có thể hoàn thành cùng một công việc với mô hình nhưng tạo ra ít token hơn, thì đó là số tiền họ không kiếm được.

Nguồn: InfoQ

Tuyên bố miễn trừ rủi ro và điều khoản

Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không cấu thành lời khuyên đầu tư cá nhân, cũng không xem xét đến mục tiêu đầu tư, tình hình tài chính hoặc nhu cầu cụ thể của từng cá nhân. Người dùng nên xem xét liệu bất kỳ ý kiến, quan điểm hay kết luận nào trong bài viết này có phù hợp với hoàn cảnh cụ thể của họ hay không. Đầu tư theo đó là tự chịu trách nhiệm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim