Я помітив цікаву тенденцію — епоха дешевих токенів офіційно закінчилася.


Trước đây, khi các công ty lớn trợ cấp API, tất cả chúng ta sống như những vị vua.
Chúng ta bỏ hàng nghìn từ vào các prompt, bắt GPT-4 làm những việc vặt vãnh như «viết hoa chữ cái đầu tiên».
Tại sao? Bởi vì nó rẻ. Nhưng gió đã đổi chiều.

Bây giờ các hóa đơn về sức mạnh tính toán đã trở thành hiện thực.
NVIDIA H100 — đó là một cuộc xung đột địa chính trị, chứ không chỉ là cạnh tranh thương mại.
Mỗi lần gọi API đều tốn tiền thật.
Token — không còn chỉ là một đơn vị, nó thực sự như vàng.

Vấn đề là, phần lớn các đội nhóm không hiểu rõ nơi thực sự tiêu tiền.
Mọi người nhìn vào hóa đơn cuối tháng và sốc.
Mất mát ẩn trong những chỗ ít ai để ý nhất.
Bạn lịch sự trò chuyện với mô hình — chào, cảm ơn, làm ơn.
Nhưng mỗi từ, mỗi khoảng trắng — đó là token bạn phải trả tiền.
Hệ thống prompt tích tụ, lặp lại trong mỗi phiên, và bạn trả tiền cho những gì đã trả hôm qua.

RAG thường trở thành thảm họa.
Lý tưởng là trích xuất ba câu liên quan.
Trong thực tế — người dùng hỏi, và hệ thống đưa vào mô hình mười tài liệu PDF, mỗi cái 10 nghìn từ.
Nhà phát triển nghĩ: để nó tự tìm đi.
Đó không phải là lười, đó là tội ác đối với sức mạnh tính toán.
Thông tin ngữ cảnh không phù hợp không chỉ làm rối loạn cơ chế chú ý, mà còn dẫn đến tiêu thụ token khổng lồ.

Các agent không kiểm soát — đã là cực đoan rồi.
Khi AI rơi vào vòng lặp lỗi, nó quay vòng vô tận, tiêu tốn token đắt đỏ.
Không có cơ chế dừng khẩn cấp đúng cách, có thể làm trống sạch thẻ tín dụng của bạn trong một đêm.

Nhưng có giải pháp.
Bộ nhớ đệm ngữ nghĩa — cách đơn giản nhất.
Các yêu cầu của người dùng thường giống nhau.
Thay vì gọi GPT-4 mỗi lần, kiểm tra sự tương đồng với bộ nhớ đệm.
Nếu ai đó đã hỏi tương tự — lấy câu trả lời đã có.
Không tiêu tốn token nào.
Độ trễ từ giây chuyển sang mili giây.

Nén prompt — đó là cấp độ thứ hai.
Các thuật toán dựa trên entropy thông tin phân tích xem từ nào quan trọng, từ nào thừa.
Có thể nén văn bản từ nghìn token xuống còn ba trăm, vẫn giữ được nội dung.
Hãy để máy móc giao tiếp bằng ngôn ngữ máy — thứ mà người ta thấy vụng về, nhưng đối với mô hình thì hoàn toàn rõ ràng.

Định tuyến mô hình — thử thách lớn nhất cho các kiến trúc sư.
Đừng đưa tất cả nhiệm vụ vào mô hình đắt nhất.
Đối với các chuyển đổi định dạng đơn giản hay dịch thuật — định tuyến đến API rẻ hơn hoặc các mô hình nhỏ triển khai cục bộ.
Chi phí gần như biến mất.
Các suy luận phức tạp — thì dùng các công cụ mạnh mẽ hơn.
Như một công ty được cấu hình tốt: quầy lễ tân không chuyển yêu cầu trực tiếp cho giám đốc điều hành.

Đây mới là phần thực sự thú vị — hãy xem OpenClaw và Hermes.
Đây là các agent hiểu rõ giới hạn tài nguyên.
OpenClaw gần như bị ám ảnh kiểm soát token.
Thay vì dòng văn bản tự do — nó bắt buộc xuất ra theo JSON Schema.
AI không giao tiếp, nó điền vào các mẫu.
Nhìn từ bên ngoài — điều này giúp dễ dàng phân tích, nhưng thực ra là tiết kiệm băng thông một cách chính xác.

Hermes của Nous Research thể hiện độ chính xác trong thực thi lệnh.
Làm đúng ngay lần đầu — đó là tiết kiệm lớn nhất.
Trong các tương tác nhiều bước, họ không lưu toàn bộ lịch sử.
Bộ nhớ làm việc — 3–5 tin nhắn cuối cùng.
Khi cửa sổ quá đầy, mô hình nhẹ nhàng tóm tắt vài câu chính và lưu trữ trong cơ sở dữ liệu vector.
Cuộc hội thoại cũ bị xóa, nhưng kiến thức vẫn còn.
Đây không phải là vứt rác, mà là loại bỏ chính xác trong bộ nhớ.

Bây giờ, điểm mấu chốt — không phải là vấn đề kỹ thuật, mà là thay đổi tư duy.
Trước đây, chúng ta xem token như khách hàng đi siêu thị.
Thấy giảm giá — bỏ vào giỏ.
Các công ty mù quáng kết nối LLM vào mọi thứ, thậm chí cả menu nhà ăn.
Bây giờ, cần chuyển sang tư duy đầu tư.
Mỗi token là một khoản đầu tư.
Hỏi: nó mang lại gì cho tôi?
Tỷ lệ đóng ticket tăng lên?
Thời gian sửa lỗi giảm?

Nếu một chức năng dựa trên quy tắc tốn 10 cent, còn mô hình lớn — 1 đô la mỗi token, nhưng chỉ tăng tỷ lệ chuyển đổi 2% — hãy loại bỏ nó.
Không dao động.
Ngừng chạy theo các giải pháp AI lớn và toàn diện.
Tìm các giải pháp nhỏ, chính xác và tinh vi hơn.
Khi doanh nghiệp hỏi: có thể đọc 100 nghìn báo cáo và đưa ra tóm tắt không?
Hãy hỏi lại: doanh thu của bạn có đủ để trả vài triệu token API không?

Hãy tính toán.
Tiết kiệm.
Đếm token như chủ một cửa hàng thực phẩm.
Nghe có vẻ không cyberpunk — có phần nông nghiệp hơn nhiều.
Nhưng đó là bước cần thiết trên con đường trưởng thành của AI.
Thời đại của freeuse không giới hạn đã kết thúc.
Bây giờ, ai hiểu kiến trúc, định tuyến và biết tận dụng tối đa từng giọt sức mạnh tính toán sẽ chiến thắng.
Khi dòng chảy rút lui, ai mới là người còn nổi?
Lần này, dòng chảy của token rẻ đã rút đi.
Chỉ những ai vọc vạch từng giọt như vàng mới có thể trang bị thật sự vũ khí.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim