Thuế Trung Quốc của Claude: hỏi cùng nội dung tiêu tốn nhiều token hơn 65% so với tiếng Anh, trong khi OpenAI chỉ nhiều hơn 15%

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, nhà nghiên cứu AI Aran Komatsuzaki đã dịch bài báo nổi tiếng của Rich Sutton 「Bài học đắng lòng」 (The Bitter Lesson) sang 9 ngôn ngữ, rồi đưa vào các công cụ phân tách từ (tokenizer) của 6 mô hình OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude 6, để đo lượng token tiêu thụ dựa trên văn bản tiếng Anh gốc làm chuẩn, xem các ngôn ngữ tiêu thụ gấp bao nhiêu lần trên từng mô hình. Kết quả: cùng một nội dung hỏi Claude bằng tiếng Trung, lượng token tiêu thụ là 1,65 lần chuẩn; dùng OpenAI chỉ 1,15 lần. Tiếng Hindi trên Claude còn tệ hơn, vượt quá 3 lần chuẩn. Trong 6 mô hình so sánh, Anthropic xếp cuối cùng.

Việc dịch sẽ làm thay đổi độ dài của văn bản, nên tỷ lệ so sánh với tiếng Anh không hoàn toàn chính xác. Nhưng đáng tin cậy hơn là thể hiện của cùng một đoạn tiếng Trung trên các mô hình khác nhau (vẫn dựa trên cùng một chuẩn): Kimi chỉ tiêu thụ 0,81 lần (ít hơn cả tiếng Anh), Qwen 0,85 lần, còn Claude lên tới 1,65 lần. Nội dung hoàn toàn giống nhau, sự khác biệt chỉ do hiệu quả của công cụ phân tách từ. Các mô hình Trung Quốc xử lý tiếng Trung còn tiết kiệm hơn tiếng Anh, cho thấy vấn đề không nằm ở chính tiếng Trung, mà ở việc công cụ phân tách từ có tối ưu cho ngôn ngữ đó hay không.

Đối với người dùng, token nhiều hơn sẽ làm API tốn kém hơn trực tiếp, thời gian chờ đợi trả lời của mô hình lâu hơn, và cửa sổ ngữ cảnh cũng nhanh hết hơn. Hiệu quả của công cụ phân tách từ phụ thuộc vào tỷ lệ các ngôn ngữ trong dữ liệu huấn luyện: dữ liệu tiếng Anh nhiều, từ tiếng Anh được nén hiệu quả hơn; dữ liệu không phải tiếng Anh ít, chỉ có thể cắt nhỏ hơn nhiều. Kết luận của Aran: ai có thị trường lớn hơn, người đó tiêu thụ token ít hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim