Aran đã dịch 《Bài học đắng cay》 sang 9 ngôn ngữ, để kiểm tra các công cụ phân tách từ của các mô hình, dựa trên số lượng token của bản gốc tiếng Anh. Kết quả cho thấy cùng một đoạn tiếng Trung có sự khác biệt đáng kể về số token trên các mô hình khác nhau: Claude 1.65 lần, OpenAI 1.15 lần, Kimi 0.81 lần, Qwen 0.85 lần; Hindi trên Claude vượt quá 3 lần, thấp nhất là Anthropic. Kết luận: token càng nhiều càng đắt, mức độ tối ưu hóa của công cụ phân tách từ đối với ngôn ngữ quyết định hiệu quả, ngôn ngữ chiếm thị phần lớn hơn sẽ tiết kiệm token hơn.

BlockBeatNews

2026-04-29 08:22:06

Đang tạo bản tóm tắt

Theo giám sát Beating, nhà nghiên cứu AI Aran Komatsuzaki đã dịch bài báo nổi tiếng của Rich Sutton 「Bài học đắng lòng」 (The Bitter Lesson) sang 9 ngôn ngữ, rồi đưa vào các công cụ phân tách từ (tokenizer) của 6 mô hình OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude 6, để đo lượng token tiêu thụ dựa trên văn bản tiếng Anh gốc làm chuẩn, xem các ngôn ngữ tiêu thụ gấp bao nhiêu lần trên từng mô hình. Kết quả: cùng một nội dung hỏi Claude bằng tiếng Trung, lượng token tiêu thụ là 1,65 lần chuẩn; dùng OpenAI chỉ 1,15 lần. Tiếng Hindi trên Claude còn tệ hơn, vượt quá 3 lần chuẩn. Trong 6 mô hình so sánh, Anthropic xếp cuối cùng.

Việc dịch sẽ làm thay đổi độ dài của văn bản, nên tỷ lệ so sánh với tiếng Anh không hoàn toàn chính xác. Nhưng đáng tin cậy hơn là thể hiện của cùng một đoạn tiếng Trung trên các mô hình khác nhau (vẫn dựa trên cùng một chuẩn): Kimi chỉ tiêu thụ 0,81 lần (ít hơn cả tiếng Anh), Qwen 0,85 lần, còn Claude lên tới 1,65 lần. Nội dung hoàn toàn giống nhau, sự khác biệt chỉ do hiệu quả của công cụ phân tách từ. Các mô hình Trung Quốc xử lý tiếng Trung còn tiết kiệm hơn tiếng Anh, cho thấy vấn đề không nằm ở chính tiếng Trung, mà ở việc công cụ phân tách từ có tối ưu cho ngôn ngữ đó hay không.

Đối với người dùng, token nhiều hơn sẽ làm API tốn kém hơn trực tiếp, thời gian chờ đợi trả lời của mô hình lâu hơn, và cửa sổ ngữ cảnh cũng nhanh hết hơn. Hiệu quả của công cụ phân tách từ phụ thuộc vào tỷ lệ các ngôn ngữ trong dữ liệu huấn luyện: dữ liệu tiếng Anh nhiều, từ tiếng Anh được nén hiệu quả hơn; dữ liệu không phải tiếng Anh ít, chỉ có thể cắt nhỏ hơn nhiều. Kết luận của Aran: ai có thị trường lớn hơn, người đó tiêu thụ token ít hơn.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
356.25K Phổ biến
#
CryptoMarketsDipSlightly
259.97K Phổ biến
#
IsraelStrikesIranBTCPlunges
35.88K Phổ biến
#
#DailyPolymarketHotspot
694.77K Phổ biến
#
StrategyAccumulates2xMiningRate
139.47M Phổ biến

Ghim

sơ đồ trang web

Thuế Trung Quốc của Claude: hỏi cùng nội dung tiêu tốn nhiều token hơn 65% so với tiếng Anh, trong khi OpenAI chỉ nhiều hơn 15%

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Ghim