Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Claude Code Tips Hemat: Insinyur menghemat 300 juta Token per minggu dengan cache, kuncinya adalah jangan sampai terputus
Claude Code panjang dialog batas kuota? Insinyur Nate Herk mengungkapkan, satu minggu menghemat 3 miliar Token berkat mekanisme cache, dengan maksimum 91 juta per hari. Kuncinya bukan berapa banyak kode yang ditulis, melainkan bagaimana tidak "mengganggu" cache, sehingga konteks yang berulang tidak lagi memboroskan biaya.
(Latar belakang: Proyek open source badclaude yang mempercepat Claude code, dikirimi surat pemberitahuan pelanggaran hak cipta dari Anthropic)
(Tambahan latar: Claude Code menambahkan fitur tugas terjadwal cloud! Tidak perlu nyalakan komputer, AI otomatis review PR, upgrade)
Daftar isi artikel
Toggle
Banyak pengembang yang menggunakan Claude Code untuk menulis program, sering merasa pusing karena kuota Token cepat habis, dan dialog panjang hampir menjadi barang mewah.
Namun, influencer yang sering berbagi tips penggunaan AI di komunitas, Nate Herk, dalam sebuah cuitan X mengungkapkan bahwa biaya sebenarnya bukan dari jumlah kode, melainkan dari apakah sistem memanfaatkan prompt caching secara baik. Dia sendiri dalam satu minggu berhasil menghemat lebih dari 3 miliar Token berkat cache, dengan puncak cache harian mencapai 91 juta: karena biaya Token cache hanya 10% dari Token input biasa, maka perhitungannya, hanya menghabiskan sekitar 9 juta Token per hari, hampir "gratis" memperpanjang umur dialog pemrograman.
Saya minggu ini menghemat 3 miliar Token, 91 juta per hari, selama seminggu lebih dari 3 miliar.
Saya tidak mengubah pengaturan apa pun. Ini hanyalah fungsi prompt caching yang bekerja normal di belakang layar.
Namun, setelah saya benar-benar memahami apa itu cache, dan bagaimana menghindari "mengganggu" cache, dalam kuota penggunaan yang sama, percakapan saya bisa berlangsung lebih lama. Jadi, di sini saya rangkum panduan pengantar 80/20 untuk prompt caching Claude Code, tanpa menyentuh detail mendalam API.
Biaya Token cache hanya 10% dari Token input biasa. 9,1 juta Token cache, biaya sebenarnya sekitar 9 juta Token.
Versi berlangganan Claude Code TTL cache adalah 1 jam; API default 5 menit; Sub-agent selalu 5 menit.
Cache terbagi menjadi tiga lapis: sistem, proyek, dialog.
Pergantian model di tengah percakapan akan merusak cache, termasuk mengaktifkan mode "opus plan".
Biaya cache hanya 10%, 9,1 juta Token setara dengan 900 ribu
Setiap Token yang di-cache, biayanya 10% dari Token input biasa.
Jadi, saat dashboard saya menunjukkan satu hari ada 91 juta Token yang kena cache, biaya sebenarnya sekitar 9 juta Token. Ini juga alasan mengapa, dibandingkan tanpa cache, saat menggunakan Claude Code dalam waktu lama, percakapan terasa hampir "gratis" diperpanjang.
Dua angka di dashboard yang perlu diperhatikan:
Cache create: biaya sekali saat menulis konten ke cache. Ini akan berfungsi di percakapan berikutnya.
Cache read: Token yang Claude gunakan kembali dari cache, seperti CLAUDE.md, definisi alat, pesan sebelumnya, dll. Dibandingkan diproses sebagai input ulang, biayanya 10 kali lebih murah.
Jika angka Cache read Anda tinggi, berarti Anda memanfaatkan cache secara efektif; jika rendah, berarti Anda membayar berulang untuk konteks yang sama.
Thariq dari Anthropic mengatakan sesuatu yang sangat berkesan: "Kami sebenarnya memantau tingkat hit prompt cache, jika terlalu rendah, akan memicu alarm, bahkan mengumumkan kejadian tingkat SEV."
Dia juga menulis artikel bagus di X. Saat tingkat hit cache tinggi, empat hal terjadi bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan lebih awet, dan sesi pengkodean jangka panjang jadi lebih realistis.
Tapi jika tingkat hit rendah, semua orang akan dirugikan.
Arsitektur tiga lapis: sistem, proyek, dialog, bertingkat-tingkat
Jadi, insentif kedua belah pihak sebenarnya sama: Anthropic ingin tingkat hit cache lebih tinggi, dan Anda juga ingin tingkat hit lebih tinggi. Yang benar-benar menghambat hanyalah kebiasaan kecil yang tampaknya sepele, tapi diam-diam membangun ulang cache.
Cache bergantung pada prefix matching, yaitu "cocokkan awalan".
Tanpa masuk ke detail teknis terlalu dalam, Anda cukup memahami satu hal: selama bagian tertentu sebelumnya sama persis dengan isi cache yang sudah ada, Claude bisa menggunakan kembali token cache tersebut.
Percakapan baru biasanya berlangsung seperti ini:
Berdasarkan file Claude Code, sebuah percakapan baru biasanya dimulai seperti ini:
Putaran pertama: belum ada cache sama sekali. Prompt sistem, konteks proyek (misalnya CLAUDE.md, memori, aturan), dan pesan pertama Anda akan diproses ulang dan ditulis ke cache.
Putaran kedua: semua isi dari putaran pertama sudah di-cache. Claude hanya perlu memproses balasan baru dan pesan berikutnya. Biaya di putaran ini jauh lebih rendah.
Putaran ketiga: sama seperti sebelumnya. Percakapan sebelumnya tetap di-cache, hanya interaksi terbaru yang perlu diproses ulang.
Jerat "putus-putus" paling umum: pergantian model dan jendela kosong 1 jam
Cache sendiri terbagi menjadi tiga lapis:
Dari artikel Thariq:
Layer sistem (System layer): termasuk instruksi dasar, definisi alat (read, write, bash, grep, glob), dan gaya output. Ini adalah cache global.
Layer proyek (Project layer): termasuk CLAUDE.md, memori, aturan proyek. Ini cache per proyek.
Layer dialog (Conversation): termasuk balasan dan pesan, yang terus bertambah setiap putaran.
Jika di tengah percakapan, terjadi perubahan di layer sistem atau proyek, semua isi harus di-cache ulang dari awal. Ini operasi paling "mahal". Bayangkan: Anda sudah sampai pesan ke-16, tiba-tiba ubah prompt sistem, atau berhenti satu jam, maka semua token dari pesan pertama harus diproses ulang.
Ini bagian yang paling sering disalahpahami.
Claude Code versi berlangganan: TTL default 1 jam.
Dashboard buatan insinyur: lihat Cache Read dan Create
API Claude: TTL default 5 menit. Anda bisa bayar lebih untuk meningkatkannya sampai 1 jam.
Sub-agent plan apa pun: selalu 5 menit.
Chat di website Claude.ai: tidak ada catatan resmi. Mungkin sama seperti versi berlangganan, tapi saya belum konfirmasi.
Bulan lalu, banyak yang mengeluh kuota Claude habis terlalu cepat. Saat itu, ada yang mengira Anthropic diam-diam menurunkan TTL dari 1 jam ke 5 menit tanpa pemberitahuan. Tapi kenyataannya, TTL Claude Code tetap 1 jam.
Masalahnya, file Claude Code dan API dipisah, dan keduanya memang berbeda, sehingga menimbulkan kebingungan.
Kalau Anda menjalankan workflow Sub-agent dalam jumlah besar, atau langsung pakai API, angka 5 menit ini penting. Tapi, untuk 95% pengguna Claude Code, yang perlu diperhatikan hanyalah jendela 1 jam itu.
Ini bagian yang saya rasa paling berguna dalam penggunaan sehari-hari.
Kalau sudah lebih dari satu jam tidak aktif, isi sebelumnya hampir pasti sudah kedaluwarsa dari cache. Pesan berikutnya akan membangun cache baru. Dalam situasi ini, daripada melanjutkan percakapan lama yang sudah "dingin", lebih baik lakukan serah terima yang jelas, lalu mulai percakapan baru, biasanya lebih hemat biaya.
/compact atau /clear memang akan menghancurkan cache, jadi lebih baik gunakan saat ini untuk membangun ulang cache secara lengkap.
Prinsip praktis: Session Handoff lebih hemat daripada /compact
Saya buat skill session handoff sebagai pengganti /compact. Ia merangkum apa yang sudah selesai, keputusan yang masih tertunda, file-file penting, dan langkah selanjutnya. Lalu saya jalankan /clear, tempelkan rangkuman ini, dan bisa lanjut tanpa gangguan.
Perintah /compact kadang juga lambat. Sedangkan skill handoff ini biasanya selesai kurang dari satu menit.
Mechanisme cache di Claude.ai tidak dijelaskan secara resmi secara lengkap, tapi Projects jelas menggunakan optimasi berbeda dari thread percakapan biasa. Jadi, kalau mau tempel file besar, sebaiknya masukkan ke Project, bukan langsung ke dialog.
Beberapa hal bisa secara tak terduga menyebabkan cache seluruhnya dibangun ulang:
Pergantian model: karena cache bergantung pada prefix matching, dan setiap model punya cache sendiri. Kalau ganti model, permintaan berikutnya tidak akan menemukan cache, harus baca riwayat lengkap lagi.
Mode "Opus plan": pengaturan ini memakai Opus saat perencanaan, dan Sonnet saat eksekusi. Saya pernah rekomendasikan di video optimasi token, dan memang ada alasannya. Tapi, perlu dipahami bahwa setiap pergantian plan adalah pergantian model, yang berarti cache harus dibangun ulang. Secara jangka panjang, ini tetap membantu memperpanjang kuota percakapan, tapi Anda harus tahu apa yang terjadi di bawahnya.
Mengedit CLAUDE.md di tengah percakapan bisa dilakukan: perubahan ini tidak langsung berlaku, baru berlaku saat restart. Jadi, cache yang sedang berjalan tidak terpengaruh.
Gambar yang saya tampilkan sebelumnya berasal dari dashboard token.