Google Gemini API bùng nổ "lỗ hổng tính phí bộ đệm", nhà phát triển xóa bỏ không hợp lệ bị trừ mạnh 20.000 real

Google AI nhà phát triển diễn đàn gần đây đã tiết lộ một sự cố nghiêm trọng về phí API bất thường. Một nhà phát triển đã đăng bài cầu cứu, chỉ ra rằng chức năng bộ nhớ đệm văn bản Gemini 3 Flash (Context Caching) mà họ đang sử dụng, sau khi xóa sạch qua API ở phía frontend, phía backend vẫn tiếp tục tính phí với tốc độ đáng kinh ngạc hơn nghìn đồng mỗi giờ, chỉ trong vài ngày đã tích lũy hóa đơn gần 20.000 real Brazil (khoảng vài nghìn USD). Hiện tại, nhà phát triển này buộc phải tạm dừng toàn bộ dịch vụ API Gemini để cắt đứt dòng tiền, sự kiện này đã gây chú ý lớn trong cộng đồng nhà phát triển.
(Tiền sử: Trump kêu gọi đầu tư vào các doanh nghiệp AI của Mỹ, dự kiến trong tuần này sẽ đàm phán với OpenAI, Anthropic, xAI, Altman đề xuất ý tưởng "quỹ tài sản công cộng")
(Thông tin bổ sung: Trước IPO của SpaceX, Google đã chi hàng trăm triệu USD mỗi tháng để thuê 110.000 GPU NVIDIA cho tính toán)

Mục lục bài viết

Chuyển đổi

  • Xóa bộ nhớ đệm vẫn tiếp tục bị trừ tiền! Một giờ bùng nổ nghìn đồng
  • Tạm dừng API khẩn cấp để cắt đứt dòng tiền, chính thức chưa có sửa lỗi
  • Cộng đồng nhà phát triển hoảng loạn, cần cẩn trọng khi sử dụng chức năng bộ nhớ đệm

Chi phí ẩn của API mô hình trí tuệ nhân tạo lớn luôn là điểm đau được các nhà phát triển đặc biệt quan tâm, nhưng gần đây, API Gemini mới nhất của Google lại phát hiện ra lỗ hổng "phí ma" gây sốc. Trên diễn đàn nhà phát triển AI của Google, một bài đăng có tiêu đề "Khẩn cấp: Vấn đề tăng phí bộ nhớ đệm lớn (Phần 2)" đã tiết lộ rằng dịch vụ bộ nhớ đệm Gemini 3 Flash (Context Caching) có khả năng bị mất kiểm soát nghiêm trọng trong cơ chế tính phí phía sau.

Xóa bộ nhớ đệm vẫn tiếp tục bị trừ tiền! Một giờ bùng nổ nghìn đồng

Theo dữ liệu chi tiết hóa đơn BigQuery do nhà phát triển Danilo_Oliveira cung cấp, sự cố bất thường này bắt đầu từ ngày 3 tháng 6 năm 2026. Ban đầu, phí cho "Token lưu trữ bộ nhớ đệm văn bản trong một giờ của Gemini 3 Flash (SKU ID: 583D-5DB6-4555)" duy trì khoảng 20 đến 30 real Brazil (BRL) mỗi giờ, với lượng sử dụng khoảng 4 triệu Token giờ.

Tuy nhiên, đến ngày 6 tháng 6, tình hình chuyển biến xấu đi nhanh chóng, chi phí tăng theo cấp số nhân. Một giờ sử dụng vượt quá 200 triệu Token giờ, mỗi giờ trừ tiền lên tới hơn 1.000 real Brazil. Đến sáng ngày 7 tháng 6, tổng cộng 341 lần tính phí bất thường đã đẩy hóa đơn tích lũy lên tới 17.847,21 real Brazil, cho thấy hệ thống tính phí đã hoàn toàn mất kiểm soát.

Tạm dừng API khẩn cấp để cắt đứt dòng tiền, chính thức chưa có sửa lỗi

Đối mặt với hóa đơn khổng lồ ngày càng tăng như quả bóng tuyết, nhà phát triển này đã áp dụng mọi biện pháp phòng ngừa có thể. Anh không chỉ lập tức tắt các script tạo bộ nhớ đệm, mà còn dùng API REST chính thức của Google để kiểm tra, xác nhận danh sách bộ nhớ đệm đã "hoàn toàn xóa sạch". Tuy nhiên, điều khiến người ta thất vọng là, dù frontend hiển thị không còn bộ nhớ đệm, hệ thống phía sau vẫn tiếp tục trừ tiền không kiểm soát.

Vì nghi ngờ lỗi do server phía sau của Google không xóa đúng các ghi chú bộ nhớ đệm, nhà phát triển đã khẩn cấp mở ticket #720261 về vấn đề hóa đơn để thương lượng với chính thức. Để ngăn chặn dòng tiền đen tối mở rộng, cuối cùng anh buộc phải "bỏ hết tất cả" — tắt hoàn toàn dịch vụ API Gemini trong dự án Google Cloud.

Cộng đồng nhà phát triển hoảng loạn, cần cẩn trọng khi sử dụng chức năng bộ nhớ đệm

Sự kiện này sau khi được tiết lộ trên diễn đàn đã nhanh chóng thu hút sự chú ý và thảo luận của các đồng nghiệp. Vì chức năng bộ nhớ đệm (Context Caching) vốn nhằm giải quyết vấn đề chi phí và độ trễ khi xử lý văn bản dài quá mức của mô hình ngôn ngữ lớn (LLM), nay lại trở thành "hố đen" hút sạch tiền, điều này chắc chắn khiến các doanh nghiệp và nhà phát triển cá nhân đang chuẩn bị triển khai quy mô lớn API Gemini cảm thấy lạnh người.

Trước khi Google chính thức sửa lỗi và công khai giải thích về lỗ hổng phía sau này, cộng đồng mạnh mẽ khuyến cáo các nhà phát triển đang sử dụng chức năng bộ nhớ đệm của API Gemini nên theo dõi sát sao hóa đơn Google Cloud theo thời gian thực, đặt giới hạn ngân sách chặt chẽ và thiết lập cảnh báo để tránh sáng hôm sau tỉnh dậy đã đối mặt với khoản phí khổng lồ không thể chịu nổi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim