Hanya dalam 3 kalimat “hello” kuota dibatasi—ke mana perginya kuota Claude Code Anda? Sebuah bug cache yang berlangsung selama 28 hari, dan respons resmi yang meminta Anda “pakai secukupnya”.

robot
Pembuatan abstrak sedang berlangsung

Judul: Hanya dengan 3 kalimat hello bisa langsung kena limit kuota—kuota Claude Code kamu ke mana? Sebuah bug cache yang melintasi 28 hari, dan respons resmi yang membuatmu “hemat dalam pemakaian”

Penulis:律动BlockBeats

Sumber asli:

Diterbitkan ulang:火星财经

4-17%. Ini adalah tingkat baca prompt cache Claude Code selama satu bulan terakhir. Level normal adalah 97-99%.

Artinya, saat kamu melanjutkan sesi yang sebelumnya pernah dibuka, Claude Code tidak akan memakai ulang konteks yang sudah diproses sebelumnya, melainkan setiap kali memproses ulang seluruh isi dari nol. Kuota yang terkonsumsi menjadi 10 hingga 20 kali dibanding kondisi normal. Kamu mengira sedang meneruskan sebuah percakapan, padahal setiap kali kamu memulai lagi percakapan baru yang lengkap dengan tarif penuh.

Angka ini berasal dari pengujian nyata oleh developer independen ArkNill melalui pemantauan proxy. Dia menyiapkan transparent proxy untuk mencatat setiap permintaan antara Claude Code dan API Anthropic, lalu menemukan setidaknya dua bug pada cache klien yang menyebabkan server API tidak dapat mencocokkan prefiks percakapan yang sudah di-cache. Akibatnya, setiap putaran terpaksa melakukan rekonstruksi token lengkap.

Gambar di atas menampilkan perbandingan tingkat baca cache pada tiga tahap. Dari v2.1.69 hingga v2.1.89 (masa bug ada), versi standalone memiliki tingkat baca cache hanya 4-17%. Setelah v2.1.90 memperbaiki salah satu bug kunci, tingkat baca cache pada cold start kembali ke 47-99.7%. Hingga v2.1.91, tingkat baca cache saat berjalan stabil kembali ke 97-99%.

Perlu dicatat satu detail dalam grafik: rentang v2.1.90 sangat lebar (47% hingga 99.7%). Ini karena ketika sesi baru saja dipulihkan, cache masih perlu “dipanaskan”; tingkat keberhasilan pada beberapa putaran awal cenderung rendah, tetapi segera kembali ke level normal. Sedangkan pada versi yang terdapat bug, pemanasan ini tidak akan pernah terjadi—tingkat baca cache akan terus berhenti pada 14.500 token pada sistem prompt, dan seluruh riwayat percakapan setiap kali dihitung dengan tarif penuh.

28 hari, 20 versi

Bug ini bukan jenis yang diperkenalkan oleh satu pembaruan lalu diperbaiki oleh pembaruan berikutnya. Berdasarkan catatan rilis di npm registry, versi v2.1.69 yang memperkenalkan bug dirilis pada 4 Maret, dan versi v2.1.90 yang memperbaiki bug dirilis pada 1 April. Jeda waktunya 28 hari, melintasi 20 versi.

Timeline tersebut mengungkap detail yang menarik. Setelah bug diperkenalkan pada 4 Maret, pengguna tidak langsung mengeluh secara besar-besaran. Baru pada 23 Maret keluhan meledak terkonsentrasi—selisihnya hampir tiga minggu. Alasannya, berdasarkan ringkasan GitHub issue #41930, dari 13 hingga 28 Maret Anthropic sempat menjalankan promosi peningkatan kuota sebesar 2 kali (off-peak times dobel). Ini secara objektif menutupi dampak bug. Setelah promosi berakhir, konsumsi akibat bug cache kembali ke baseline penagihan normal, sehingga kuota pengguna langsung “menguap”.

Respons Anthropic datang tidak cepat. Pada 26 Maret, yakni tiga hari setelah keluhan pengguna meledak, insinyur Thariq Shihipar mengumumkan di akun X pribadinya bahwa batasan pada jam puncak (hari kerja 5am-11am PT) telah dipersempit. Pada 30 Maret, Anthropic mengakui di Reddit bahwa “kecepatan pengguna mencapai batas jauh melampaui ekspektasi”, dan menyatakan telah dimasukkan sebagai prioritas tertinggi tim. Hingga 1 April, barulah anggota tim Lydia Hallie merilis kesimpulan penyelidikan resmi.

Selama seluruh proses, Anthropic tidak mempublikasikan artikel blog apa pun, tidak mengirim pemberitahuan email, dan tidak memperbarui status page. Semua komunikasi resmi hanya dilakukan melalui unggahan media sosial pribadi para insinyur dan sejumlah kecil komentar Reddit.

Kamu membayar berapa, bisa dipakai berapa lama?

GitHub issue #41930 mengumpulkan ratusan laporan dari pengguna. Kasus paling ekstrem adalah pelanggan Max 20x (berlangganan $200/bulan), jendela bergulir 5 jamnya habis total dalam 19 menit. Pengguna Max 5x ($100/bulan) melaporkan jendela 5 jam habis dalam 90 menit. Menurut laporan The Letter Two, ada juga pengguna yang mengatakan satu baris sederhana “hello” saja menghabiskan 13% kuota sesi. Seorang pengguna Pro ($20/bulan) mengatakan di Discord bahwa kuotanya “habis setiap Senin, baru reset pada Sabtu”, dan dalam 30 hari hanya 12 hari bisa digunakan dengan normal.

Berdasarkan benchmark ArkNill, pada versi bug v2.1.89, kuota 100% paket Max 20x akan habis dalam sekitar 70 menit. Ia juga menghitung biaya kuota dari operasi --resume tunggal untuk sesi konteks 500K token, sekitar $0,15, karena sistem akan memutar ulang seluruh konteks secara penuh.

“Cara kamu mengambilnya tidak benar”

Kesimpulan penyelidikan Lydia Hallie mengonfirmasi dua hal: pertama, limit pada jam puncak memang sudah dipersempit; kedua, konsumsi sesi untuk konteks 1 juta token meningkat. Dia mengatakan tim telah memperbaiki beberapa bug, tetapi menekankan “tidak ada satu pun bug yang menyebabkan biaya ganda”.

Setelah itu, dia memberikan empat saran untuk hemat kuota: 1. Gunakan Sonnet 4.6 bukan Opus (Opus menghabiskan sekitar dua kali lebih cepat);

  1. Jika tidak butuh penalaran mendalam, turunkan tingkat penalaran atau matikan extended thinking;

  2. Jangan memulihkan sesi panjang yang menganggur lebih dari satu jam—buka sesi baru;

  3. Tetapkan variabel lingkungan CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 untuk membatasi ukuran jendela konteks.

Tidak ada penyebutan apa pun mengenai reset limit atau kompensasi dalam bentuk apa pun.

Host podcast AI Alex Volkov merangkum respons ini sebagai “Cara kamu menggunakannya tidak benar” (You’re holding it wrong), dengan menyebut bahwa Anthropic sendiri menetapkan konteks 1 juta token sebagai default, mempromosikan Opus sebagai model andalan, dan menjadikan extended thinking sebagai nilai jual. Namun sekarang, dia menyarankan pengguna berbayar untuk tidak menggunakan fitur-fitur tersebut.

Klaim “tidak ada biaya ganda” juga bertentangan dengan catatan pembaruan Claude Code sendiri. Tepat sehari sebelum Lydia merilis respons, v2.1.90 memperbaiki bug regresi cache yang sudah ada sejak v2.1.69: saat menggunakan --resume untuk memulihkan sesi, permintaan yang seharusnya cocok dengan cache justru memicu prompt cache miss penuh, lalu ditagih dengan tarif penuh. Dalam respons Lydia, tidak ada disebutkan kelainan penagihan yang telah terkonfirmasi tersebut.

Sebagai perbandingan, Codex dari OpenAI sebelumnya juga mengalami masalah konsumsi kuota abnormal yang serupa. Cara OpenAI adalah mereset kuota pengguna, menerbitkan credits tambahan, dan pada Maret mengumumkan penghapusan batas penggunaan Codex. Cara Anthropic adalah menyarankan pengguna menurunkan level model, mematikan fitur, membatasi konteks, serta menyandarkan tanggung jawab pada cara pengguna memakainya.

Anthropic menjual langganan dengan “model terkuat + konteks terbesar + kemampuan penalaran tertinggi”, dengan biaya bulanan 20 hingga 200 dolar. Sebuah bug cache yang melintasi 28 hari membuat kuota pengguna berbayar “menguap” dengan kecepatan 10-20 kali, dan respons resmi menyuruhmu untuk menggunakannya dengan hemat.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan