Các doanh nghiệp Mỹ chuyển hướng sang các mô hình AI của Trung Quốc, Coinbase dẫn đầu sử dụng GLM và Kimi.

Các doanh nghiệp công nghệ Mỹ đang âm thầm đưa các mô hình AI mã nguồn mở của Trung Quốc vào cơ sở hạ tầng sản xuất. Khi chi phí dịch vụ mô hình hàng đầu của Mỹ tiếp tục tăng cao, các doanh nghiệp đại diện như Coinbase bắt đầu chọn các mô hình mã nguồn mở Trung Quốc làm tùy chọn mặc định, từ đó cắt giảm mạnh chi tiêu AI mà không hạn chế mức sử dụng.

Giám đốc điều hành Coinbase, Brian Armstrong, đã tiết lộ trên nền tảng X vào tối thứ Sáu tuần trước rằng công ty đã đặt GLM 5.2 vừa được phát hành bởi Zhipu và Kimi 2.7 của Beijing Moonshot AI làm mô hình mặc định cho các kỹ sư thông qua cổng LLM nội bộ. Armstrong cho biết, sau khi kết hợp các biện pháp như tối ưu hóa định tuyến và cải thiện bộ nhớ đệm, chi tiêu AI của Coinbase đã giảm "gần một nửa", trong khi lượng token sử dụng vẫn tăng trưởng với tốc độ theo cấp số nhân.

Lợi thế chi phí của mô hình mã nguồn mở Trung Quốc được đưa ra bàn luận

Armstrong đã chỉ rõ trong bài đăng rằng 91% kỹ sư chưa bao giờ chạm đến giới hạn sử dụng ban đầu, vì vậy Coinbase không chọn hạ thấp giới hạn hoặc thêm cảnh báo tiêu dùng, mà chuyển sang "mô hình mặc định rẻ hơn".

GLM 5.2 đến từ Zhipu, Kimi 2.7 đến từ Beijing Moonshot AI, cả hai đều thuộc loại mô hình trọng số mã nguồn mở. Armstrong cho biết các mô hình này được triển khai cho các tác vụ thông thường, trong khi các kỹ sư vẫn có thể chọn mô hình tiên tiến cho các tác vụ yêu cầu lập kế hoạch phức tạp. Logic của ông là: sử dụng mô hình hàng đầu ở cấp độ thực thi thường là "dao mổ trâu cắt tiết gà".

Đối với khâu xem xét mã nguồn, họ áp dụng chiến lược đa mô hình song song, cho phép các mô hình khác nhau kiểm tra chéo kết quả đầu ra để duy trì tiêu chuẩn chất lượng.

Tái cấu trúc cơ sở hạ tầng ba lớp thúc đẩy cắt giảm chi phí

Armstrong đã liệt kê ba biện pháp cốt lõi.

Đầu tiên là định tuyến thông minh: trong khung điều phối tùy chỉnh, hệ thống tiền xử lý các prompt, kết hợp tỷ lệ trúng bộ nhớ đệm và giá mô hình, tự động phân phối tác vụ đến mô hình phù hợp nhất và kinh tế nhất. Ông cho biết mục tiêu cuối cùng là để AI thay vì con người hoàn thành việc chọn mô hình.

Thứ hai là bộ nhớ đệm tích cực: Coinbase yêu cầu tất cả các yêu cầu phải có khả năng nhận thức bộ nhớ đệm, cố gắng tái sử dụng bộ nhớ đệm hiện có. Ví dụ với LibreChat, sau khi triển khai cơ chế bộ nhớ đệm đúng cách, tỷ lệ trúng bộ nhớ đệm đã tăng từ 5% lên 60%.

Thứ ba là tinh gọn ngữ cảnh: Armstrong khuyến nghị khi chuyển tác vụ nên bắt đầu phiên mới, thu hẹp phạm vi ngữ cảnh tệp, ngắt kết nối các công cụ không sử dụng. Ông nhấn mạnh mục tiêu không phải là giảm tổng lượng token sử dụng, mà là giảm "các token bị lãng phí".

Ưu tiên hiệu quả, thay vì hạn chế sử dụng

Armstrong coi việc cắt giảm chi phí này là điều kiện tiên quyết để mở rộng quy mô áp dụng AI, chứ không phải là một hạn chế. Ông cho biết các kỹ sư vẫn có thể tự do sử dụng bất kỳ số lượng token và mô hình nào, nhưng công ty đã trực quan hóa dữ liệu sử dụng và gắn kết mức sử dụng với tác động kinh doanh — "càng chi tiêu nhiều, chúng tôi càng kỳ vọng tác động lớn hơn".

Ông không tiết lộ con số chi tiêu tuyệt đối cụ thể. Nhưng nhìn từ cấu trúc, trong khi lượng sử dụng tăng theo cấp số nhân, chi tiêu giảm gần một nửa, điều này có nghĩa là Coinbase đã đạt được sự tách rời nhất định giữa tiêu thụ và chi phí.

Kết luận của Armstrong là, phương pháp luận này có tính phổ quát, bất kỳ doanh nghiệp nào cũng có thể tham khảo để đạt được mở rộng bền vững quy mô sử dụng AI mà không biến chi phí thành trần nhà.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim