Claude Code Tips Hemat: Insinyur menghemat 300 juta Token per minggu dengan cache, kuncinya adalah jangan sampai terputus

Claude Code panjang dialog batas kuota? Insinyur Nate Herk mengungkapkan, satu minggu menghemat 3 miliar Token berkat mekanisme cache, dengan maksimum 91 juta per hari. Kuncinya bukan berapa banyak kode yang ditulis, melainkan bagaimana tidak "mengganggu" cache, sehingga konteks yang berulang tidak lagi memboroskan biaya.
(Latar belakang: Proyek open source badclaude yang mempercepat Claude code, dikirimi surat pemberitahuan pelanggaran hak cipta dari Anthropic)
(Tambahan latar: Claude Code menambahkan fitur tugas terjadwal cloud! Tidak perlu nyalakan komputer, AI otomatis review PR, upgrade)

Daftar isi artikel

Toggle

  • Biaya cache hanya 10%, 91 juta Token setara dengan 9 juta
  • Arsitektur tiga lapis: sistem, proyek, dialog, bertingkat-tingkat
  • Jerat "putus-putus" paling umum: pergantian model dan jendela kosong 1 jam
  • Dashboard buatan insinyur: lihat Cache Read dan Create
  • Prinsip praktis: Session Handoff lebih hemat biaya daripada /compact

Banyak pengembang yang menggunakan Claude Code untuk menulis program, sering merasa pusing karena kuota Token cepat habis, dan dialog panjang hampir menjadi barang mewah.

Namun, influencer yang sering berbagi tips penggunaan AI di komunitas, Nate Herk, dalam sebuah cuitan X mengungkapkan bahwa biaya sebenarnya bukan dari jumlah kode, melainkan dari apakah sistem memanfaatkan prompt caching secara baik. Dia sendiri dalam satu minggu berhasil menghemat lebih dari 3 miliar Token berkat cache, dengan puncak cache harian mencapai 91 juta: karena biaya Token cache hanya 10% dari Token input biasa, maka perhitungannya, hanya menghabiskan sekitar 9 juta Token per hari, hampir "gratis" memperpanjang umur dialog pemrograman.


Saya minggu ini menghemat 3 miliar Token, 91 juta per hari, selama seminggu lebih dari 3 miliar.

Saya tidak mengubah pengaturan apa pun. Ini hanyalah fungsi prompt caching yang bekerja normal di belakang layar.

Namun, setelah saya benar-benar memahami apa itu cache, dan bagaimana menghindari "mengganggu" cache, dalam kuota penggunaan yang sama, percakapan saya bisa berlangsung lebih lama. Jadi, di sini saya rangkum panduan pengantar 80/20 untuk prompt caching Claude Code, tanpa menyentuh detail mendalam API.

Biaya Token cache hanya 10% dari Token input biasa. 9,1 juta Token cache, biaya sebenarnya sekitar 9 juta Token.

Versi berlangganan Claude Code TTL cache adalah 1 jam; API default 5 menit; Sub-agent selalu 5 menit.

Cache terbagi menjadi tiga lapis: sistem, proyek, dialog.

Pergantian model di tengah percakapan akan merusak cache, termasuk mengaktifkan mode "opus plan".

agen pengkodean sekarang butuh kotak kaca

jianshuo/ccglass

111 bintang di github
dibuat kemarin
mit + javascript
proxy lokal + dashboard web untuk claude code, codex, deepseek-tui, dan kimi
menampilkan prompt sistem lengkap, skema alat, riwayat pesan, token/biaya cache, dan… gambar.twitter.com/Wot5SFV16N

— Beau Johnson (@BeauJohnson89) 24 Mei 2026

Biaya cache hanya 10%, 9,1 juta Token setara dengan 900 ribu

Setiap Token yang di-cache, biayanya 10% dari Token input biasa.

Jadi, saat dashboard saya menunjukkan satu hari ada 91 juta Token yang kena cache, biaya sebenarnya sekitar 9 juta Token. Ini juga alasan mengapa, dibandingkan tanpa cache, saat menggunakan Claude Code dalam waktu lama, percakapan terasa hampir "gratis" diperpanjang.

Dua angka di dashboard yang perlu diperhatikan:

Cache create: biaya sekali saat menulis konten ke cache. Ini akan berfungsi di percakapan berikutnya.
Cache read: Token yang Claude gunakan kembali dari cache, seperti CLAUDE.md, definisi alat, pesan sebelumnya, dll. Dibandingkan diproses sebagai input ulang, biayanya 10 kali lebih murah.

Jika angka Cache read Anda tinggi, berarti Anda memanfaatkan cache secara efektif; jika rendah, berarti Anda membayar berulang untuk konteks yang sama.

Thariq dari Anthropic mengatakan sesuatu yang sangat berkesan: "Kami sebenarnya memantau tingkat hit prompt cache, jika terlalu rendah, akan memicu alarm, bahkan mengumumkan kejadian tingkat SEV."

Dia juga menulis artikel bagus di X. Saat tingkat hit cache tinggi, empat hal terjadi bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan lebih awet, dan sesi pengkodean jangka panjang jadi lebih realistis.

Tapi jika tingkat hit rendah, semua orang akan dirugikan.

Arsitektur tiga lapis: sistem, proyek, dialog, bertingkat-tingkat

Jadi, insentif kedua belah pihak sebenarnya sama: Anthropic ingin tingkat hit cache lebih tinggi, dan Anda juga ingin tingkat hit lebih tinggi. Yang benar-benar menghambat hanyalah kebiasaan kecil yang tampaknya sepele, tapi diam-diam membangun ulang cache.

Cache bergantung pada prefix matching, yaitu "cocokkan awalan".

Tanpa masuk ke detail teknis terlalu dalam, Anda cukup memahami satu hal: selama bagian tertentu sebelumnya sama persis dengan isi cache yang sudah ada, Claude bisa menggunakan kembali token cache tersebut.

Percakapan baru biasanya berlangsung seperti ini:

Berdasarkan file Claude Code, sebuah percakapan baru biasanya dimulai seperti ini:

Putaran pertama: belum ada cache sama sekali. Prompt sistem, konteks proyek (misalnya CLAUDE.md, memori, aturan), dan pesan pertama Anda akan diproses ulang dan ditulis ke cache.

Putaran kedua: semua isi dari putaran pertama sudah di-cache. Claude hanya perlu memproses balasan baru dan pesan berikutnya. Biaya di putaran ini jauh lebih rendah.

Putaran ketiga: sama seperti sebelumnya. Percakapan sebelumnya tetap di-cache, hanya interaksi terbaru yang perlu diproses ulang.

Jerat "putus-putus" paling umum: pergantian model dan jendela kosong 1 jam

Cache sendiri terbagi menjadi tiga lapis:

Dari artikel Thariq:

Layer sistem (System layer): termasuk instruksi dasar, definisi alat (read, write, bash, grep, glob), dan gaya output. Ini adalah cache global.

Layer proyek (Project layer): termasuk CLAUDE.md, memori, aturan proyek. Ini cache per proyek.

Layer dialog (Conversation): termasuk balasan dan pesan, yang terus bertambah setiap putaran.

Jika di tengah percakapan, terjadi perubahan di layer sistem atau proyek, semua isi harus di-cache ulang dari awal. Ini operasi paling "mahal". Bayangkan: Anda sudah sampai pesan ke-16, tiba-tiba ubah prompt sistem, atau berhenti satu jam, maka semua token dari pesan pertama harus diproses ulang.

Ini bagian yang paling sering disalahpahami.

Claude Code versi berlangganan: TTL default 1 jam.

Dashboard buatan insinyur: lihat Cache Read dan Create

API Claude: TTL default 5 menit. Anda bisa bayar lebih untuk meningkatkannya sampai 1 jam.
Sub-agent plan apa pun: selalu 5 menit.

Chat di website Claude.ai: tidak ada catatan resmi. Mungkin sama seperti versi berlangganan, tapi saya belum konfirmasi.

Bulan lalu, banyak yang mengeluh kuota Claude habis terlalu cepat. Saat itu, ada yang mengira Anthropic diam-diam menurunkan TTL dari 1 jam ke 5 menit tanpa pemberitahuan. Tapi kenyataannya, TTL Claude Code tetap 1 jam.

Masalahnya, file Claude Code dan API dipisah, dan keduanya memang berbeda, sehingga menimbulkan kebingungan.

Kalau Anda menjalankan workflow Sub-agent dalam jumlah besar, atau langsung pakai API, angka 5 menit ini penting. Tapi, untuk 95% pengguna Claude Code, yang perlu diperhatikan hanyalah jendela 1 jam itu.

Ini bagian yang saya rasa paling berguna dalam penggunaan sehari-hari.

Kalau sudah lebih dari satu jam tidak aktif, isi sebelumnya hampir pasti sudah kedaluwarsa dari cache. Pesan berikutnya akan membangun cache baru. Dalam situasi ini, daripada melanjutkan percakapan lama yang sudah "dingin", lebih baik lakukan serah terima yang jelas, lalu mulai percakapan baru, biasanya lebih hemat biaya.

/compact atau /clear memang akan menghancurkan cache, jadi lebih baik gunakan saat ini untuk membangun ulang cache secara lengkap.

Prinsip praktis: Session Handoff lebih hemat daripada /compact

Saya buat skill session handoff sebagai pengganti /compact. Ia merangkum apa yang sudah selesai, keputusan yang masih tertunda, file-file penting, dan langkah selanjutnya. Lalu saya jalankan /clear, tempelkan rangkuman ini, dan bisa lanjut tanpa gangguan.

Perintah /compact kadang juga lambat. Sedangkan skill handoff ini biasanya selesai kurang dari satu menit.

Mechanisme cache di Claude.ai tidak dijelaskan secara resmi secara lengkap, tapi Projects jelas menggunakan optimasi berbeda dari thread percakapan biasa. Jadi, kalau mau tempel file besar, sebaiknya masukkan ke Project, bukan langsung ke dialog.

Beberapa hal bisa secara tak terduga menyebabkan cache seluruhnya dibangun ulang:

Pergantian model: karena cache bergantung pada prefix matching, dan setiap model punya cache sendiri. Kalau ganti model, permintaan berikutnya tidak akan menemukan cache, harus baca riwayat lengkap lagi.
Mode "Opus plan": pengaturan ini memakai Opus saat perencanaan, dan Sonnet saat eksekusi. Saya pernah rekomendasikan di video optimasi token, dan memang ada alasannya. Tapi, perlu dipahami bahwa setiap pergantian plan adalah pergantian model, yang berarti cache harus dibangun ulang. Secara jangka panjang, ini tetap membantu memperpanjang kuota percakapan, tapi Anda harus tahu apa yang terjadi di bawahnya.

Mengedit CLAUDE.md di tengah percakapan bisa dilakukan: perubahan ini tidak langsung berlaku, baru berlaku saat restart. Jadi, cache yang sedang berjalan tidak terpengaruh.

Gambar yang saya tampilkan sebelumnya berasal dari dashboard token.

https://github.com/nateherkai/token-dashboard
Ini adalah repositori GitHub yang sangat sederhana. Anda berikan link-nya ke Claude Code, biarkan dia deploy di localhost, dan dia akan membaca semua riwayat percakapan Anda, bukan mulai dari nol. Anda langsung bisa lihat data input, output, cache create, dan cache read harian.
Tapi, perlu diingat: dashboard ini menghitung token dari perangkat lokal. Kalau Anda pindah dari desktop ke laptop, angka tidak akan sama persis. Setiap perangkat punya statistiknya sendiri.
Prompt caching adalah hal yang bisa dipelajari sangat dalam. Artikel Thariq jauh lebih lengkap, kalau mau tahu gambaran lengkap, layak dibaca.
Tapi, Anda tidak perlu memahami semua detail untuk mendapatkan manfaatnya. Cukup kuasai 80/20 paling penting: cache token 10 kali lebih murah dari token biasa; TTL Claude Code 1 jam; pergantian model akan menghancurkan cache; lakukan serah terima yang jelas antar sesi, biasanya lebih hemat daripada menunggu cache "kedaluarsa" lalu pakai lagi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan