2026-04-03 00:11:41

Tôi đã theo dõi các doanh nghiệp triển khai Gen AI quy mô lớn, và có một mô hình lặp đi lặp lại mà không ai thực sự nói đến cho đến khi quá muộn: sự phình to của token. Bạn triển khai một chatbot, bản demo trông rất tuyệt, nhưng sau ba tháng, bạn lại đối mặt với các hóa đơn không hợp lý và tự hỏi mọi thứ đã đi sai ở đâu.

Dưới đây là những gì thực sự xảy ra. Hầu hết các nhóm tập trung vào việc làm cho AI hoạt động, chứ không phải làm sao để nó hoạt động hiệu quả. Họ nhồi nhét ngữ cảnh, xây dựng các lệnh hệ thống khổng lồ, để các cuộc trò chuyện tích tụ lịch sử vô hạn định. Mỗi quyết định có vẻ hợp lý trong từng trường hợp riêng lẻ. Nhưng khi nhân rộng chúng qua hàng nghìn tương tác hàng ngày? Đó là lúc các bất thường bắt đầu xuất hiện trong các báo cáo chi phí của bạn, và đến lúc đó bạn đã đi sâu vào rắc rối.

Hãy để tôi phân tích những gì tôi đã thấy trong thực tế. Một khách hàng trong lĩnh vực chăm sóc sức khỏe mà tôi làm việc cùng đang xử lý hồ sơ y tế qua hệ thống AI. Thuật ngữ chuyên ngành của họ—như electroencephalogram, immunohistochemistry—đang bị phân mảnh thành nhiều token cho mỗi từ. Trong khi đó, lệnh hệ thống của họ đã tăng lên hàng nghìn token chỉ từ việc thêm các kiểm tra tuân thủ và xử lý các trường hợp ngoại lệ. Đến lượt thứ hai mươi của một cuộc trò chuyện, họ đang xử lý hơn 7.000 token lịch sử tích tụ cho mỗi truy vấn mới của người dùng. Đó là một hệ số nhân 14 lần so với lần trao đổi đầu tiên.

Vấn đề thực sự không chỉ là tiền, mặc dù điều đó cũng quan trọng. Đó là độ trễ. Sự phình to của ngữ cảnh làm chết thời gian phản hồi. Một chuyên gia y tế chờ đợi ba giây để có câu trả lời từ AI trong các cuộc gặp bệnh nhân sẽ ngừng sử dụng công cụ hoàn toàn. Các nhà giao dịch tài chính cần phân tích nhanh hơn cả khi thị trường biến động. Khi chiến lược token của bạn bỏ qua độ trễ, bạn đã thua ngay từ đầu.

Vậy điều gì thực sự hiệu quả? Tôi đã thấy các nhóm tiến bộ thực sự với ba phương pháp cụ thể.

Thứ nhất, đừng coi ngữ cảnh như một chiếc hộp đựng đồ linh tinh. Thay vào đó, hãy triển khai hệ thống truy xuất thông minh thay vì nhồi nhét mọi thứ vào khung ngữ cảnh. Kiến trúc RAG—nơi bạn duy trì các cơ sở dữ liệu kiến thức được lập chỉ mục và chỉ lấy những gì phù hợp—thường giảm tiêu thụ token từ 60-90% so với việc nhồi nhét ngữ cảnh. Nhưng đây là điểm mấu chốt: nó đòi hỏi đầu tư thực sự vào vệ sinh dữ liệu và tinh chỉnh truy xuất. Các nhóm xem đó như một giải pháp cắm vào là chạy thường chỉ đổi một sự không hiệu quả lấy một sự không hiệu quả khác.

Thứ hai, thiết kế các cuộc trò chuyện theo cách khác. Hầu hết các hệ thống AI hội thoại lặp lại toàn bộ lịch sử trong mỗi lượt. Sử dụng tóm tắt để nén các trao đổi cũ, phân đoạn cuộc trò chuyện tại các điểm dừng tự nhiên, triển khai bộ nhớ cache lệnh cho các thành phần tĩnh. Một số ứng dụng thậm chí không cần các cuộc trò chuyện nhiều lượt—một lệnh thiết kế tốt cho một lượt thường vượt trội hơn so với giao diện chatbot trong khi tiêu tốn ít token hơn nhiều.

Thứ ba—và đây là nơi hầu hết các tổ chức thất bại—thiết lập quản trị thực sự. Ngân sách token trong giai đoạn thiết kế. Các cuộc xem xét tiêu thụ hàng tháng để phát hiện các cơ hội tối ưu hóa. Một ban kiến trúc duy trì các công cụ giám sát chung và ghi lại những gì đang hoạt động. Nếu không có điều này, tối ưu hóa token sẽ chỉ là một ý tưởng sau cùng thay vì trở thành một ngành kỹ thuật chính thức.

Các doanh nghiệp thực sự chiến thắng với Gen AI là những doanh nghiệp coi token như một nguồn lực chiến lược, chứ không chỉ là một dòng tính phí. Họ theo dõi mô hình tiêu thụ, phát hiện bất thường sớm, và xây dựng hiệu quả vào hệ thống của mình từ ngày đầu tiên. Những người khác sẽ tỉnh giấc với các cuộc xem xét hàng quý không hợp lý và các sáng kiến trông có vẻ hứa hẹn trên giấy tờ nhưng không thể mở rộng trong thực tế.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.