Google Gemini API bocor "kerentanan biaya cache cepat", pengembang menghapus yang tidak valid dan dikenai denda hingga 20.000 real Brasil

Google AI Pengembang Forum baru-baru ini mengungkapkan kejadian serius terkait anomali biaya API. Seorang pengembang memposting permohonan bantuan, menunjukkan bahwa fitur cache teks Gemini 3 Flash (Context Caching) yang digunakannya, setelah dihapus melalui API di frontend, tetap dikenai biaya secara terus-menerus di backend dengan kecepatan mencengangkan lebih dari seribu yuan per jam, dalam beberapa hari tagihan terkumpul mendekati 20.000 real Brasil (sekitar beberapa ribu dolar AS). Saat ini pengembang tersebut terpaksa menonaktifkan seluruh layanan Gemini API untuk menghentikan kerugian, dan kejadian ini telah menarik perhatian tinggi dari komunitas pengembang.
(Sejarah singkat: Trump mengumumkan masuk saham perusahaan AI AS, kemungkinan minggu ini akan berdiskusi dengan OpenAI, Anthropic, xAI, Altman mengusulkan konsep "Dana Kekayaan Publik")
(Latar belakang tambahan: Sebelum IPO SpaceX, ada pesanan besar terbuka: Google membayar 92 juta dolar AS per bulan untuk menyewa 110.000 GPU NVIDIA)

Daftar Isi Artikel

Toggle

  • Cache yang dihapus tetap dikenai biaya! Per jam biaya melonjak ribuan yuan
  • Menonaktifkan API secara darurat untuk menghentikan kerugian, belum ada perbaikan resmi
  • Komunitas pengembang panik, penggunaan fitur cache harus berhati-hati

Biaya tersembunyi dari API model besar kecerdasan buatan selalu menjadi perhatian utama pengembang, namun baru-baru ini Gemini API terbaru dari Google mengungkapkan celah "penagihan hantu" yang menakutkan. Di forum pengembang AI Google, sebuah posting berjudul "Darurat: Masalah besar peningkatan biaya cache (Bagian kedua)" mengungkapkan bahwa layanan cache Gemini 3 Flash (Context Caching) tampaknya mengalami kendali biaya yang serius di mekanisme penagihan backend.

Cache yang dihapus tetap dikenai biaya! Per jam biaya melonjak ribuan yuan

Berdasarkan data tagihan BigQuery rinci yang disediakan pengembang Danilo_Oliveira, kejadian abnormal ini dimulai pada 3 Juni 2026. Awalnya, biaya "Token penyimpanan teks cache per jam (SKU ID: 583D-5DB6-4555)" dari Gemini 3 Flash tetap sekitar 20 hingga 30 real Brasil (BRL) per jam, dengan penggunaan sekitar 4 juta Token per jam.

Namun, pada 6 Juni, situasi memburuk secara drastis, biaya menunjukkan lonjakan eksponensial. Penggunaan per jam mencapai lebih dari 200 juta Token per jam, dengan biaya per jam lebih dari 1.000 real Brasil. Pada dini hari 7 Juni, total 341 kejadian penagihan abnormal menyebabkan tagihan kumulatif melonjak ke 17.847,21 real Brasil, menunjukkan sistem penagihan sudah benar-benar tidak terkendali.

Menonaktifkan API secara darurat untuk menghentikan kerugian

Menghadapi tagihan yang membengkak seperti bola salju, pengembang tersebut mengambil semua langkah pencegahan yang mungkin. Ia segera menutup skrip yang menghasilkan cache, dan melalui API REST resmi Google, memastikan daftar cache di frontend sudah "benar-benar dikosongkan". Namun, yang membuat frustrasi, meskipun frontend menunjukkan cache sudah hilang, sistem backend tetap terus memotong biaya tanpa henti.

Diduga ini disebabkan oleh bug di server backend Google yang gagal menghapus catatan cache dengan benar, pengembang tersebut segera membuka tiket masalah tagihan #720261 untuk berusaha bernegosiasi dengan pihak resmi. Untuk menghentikan kerugian finansial yang semakin besar, akhirnya ia memilih langkah terakhir yang ekstrem — menonaktifkan seluruh layanan Gemini API secara total di proyek Google Cloud.

Komunitas pengembang panik, penggunaan fitur cache harus berhati-hati

Setelah kejadian ini terungkap di forum, cepat menarik perhatian dan diskusi dari sesama pengembang. Karena fungsi cache (Context Caching) awalnya dimaksudkan untuk mengatasi biaya dan latensi saat model bahasa besar (LLM) memproses teks panjang, kini justru menjadi lubang hitam yang menyedot dana, hal ini tentu saja mengecewakan perusahaan dan pengembang individu yang sedang bersiap mengadopsi Gemini API secara besar-besaran.

Sebelum Google resmi memperbaiki dan mengumumkan celah backend ini, komunitas sangat menyarankan pengembang yang saat ini menggunakan fitur cache Gemini API untuk memantau tagihan Google Cloud secara real-time, serta mengatur batas anggaran dan mekanisme peringatan secara ketat, agar tidak terkejut dengan tagihan besar yang tak terduga.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan