Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Panduan Cache Kode Claude oleh Insinyur Anthropic yang Menghemat 300 Juta Token Seminggu
Judul asli: How Anthropic Engineers Actually Save Tokens
Penulis asli: Nate Herk
Diterjemahkan: Peggy, BlockBeats
Penulis asli: BlockBeats
Sumber asli:
Ditransfer: Mars Finance
Catatan editor: Banyak orang yang menggunakan Claude Code, pengalaman paling langsung adalah konsumsi Token terlalu cepat, percakapan panjang mudah menghabiskan kuota. Tapi dari sudut pandang insinyur Anthropic, yang benar-benar mempengaruhi biaya seringkali bukan berapa banyak kode yang kamu tulis, melainkan apakah sistem mampu terus-menerus menggunakan kembali konteks yang sudah diproses.
Inti dari artikel ini adalah bagaimana menggunakan mekanisme cache untuk menghemat Token. Penulis dalam seminggu berhasil menggunakan kembali lebih dari 300 juta Token melalui cache, dengan volume cache harian mencapai 91 juta. Karena biaya Token yang di-cache hanya 10% dari Token input biasa, ini berarti 91 juta Token yang di-cache secara biaya sebenarnya setara dengan sekitar 9 juta Token biasa. Mengapa percakapan panjang Claude Code tampak lebih "tahan lama"? Bukan karena model bekerja gratis, melainkan karena banyak konteks yang berulang berhasil digunakan kembali secara efektif.
Kunci dari prompt caching adalah "jangan memutus cache". Claude Code akan menyimpan cache secara berlapis: prompt sistem, definisi alat, CLAUDE.md, aturan proyek, dan percakapan sejarah; selama prefix permintaan berikutnya tetap sama, Claude bisa langsung membaca cache tanpa harus memproses ulang seluruh konteks. Internal Anthropic juga memantau tingkat penggunaan kembali prompt cache, karena ini tidak hanya mempengaruhi kuota pengguna, tetapi juga langsung berpengaruh pada biaya layanan model dan efisiensi operasional.
Bagi pengguna biasa, tidak perlu memahami semua detail dasar, cukup kuasai beberapa kebiasaan kunci: jangan biarkan percakapan menganggur lebih dari 1 jam; lakukan serah terima sesi saat beralih tugas; hindari sering berganti model; dokumen besar sebaiknya dimasukkan ke Projects, bukan di-paste berulang kali ke dalam percakapan.
Artikel ini, daripada membahas teknik menghemat Token, lebih tepat disebut sebagai metode penggunaan Claude Code yang mendekati pola pikir insinyur: anggap konteks sebagai aset, buat cache terus-menerus digunakan kembali, dan kurangi pengulangan perhitungan dalam percakapan panjang.
Berikut adalah isi aslinya:
Saya minggu ini menghemat 300 juta Token, 91 juta per hari, lebih dari 300 juta dalam seminggu.
Saya tidak mengubah pengaturan apapun. Ini hanyalah prompt caching yang berfungsi normal di latar belakang.
Namun setelah saya benar-benar memahami apa itu cache dan bagaimana menghindari "memutus" cache, dalam kuota penggunaan yang sama, percakapan saya bisa berlangsung lebih lama. Jadi, saya rangkum panduan pengantar Claude Code prompt caching 80/20 ini, tanpa menyentuh detail mendalam API.
TL;DR
Biaya Token yang di-cache hanya 10% dari Token input biasa. 91 juta Token yang di-cache, secara biaya setara sekitar 9 juta Token.
Versi berlangganan Claude Code dengan cache TTL adalah 1 jam; API secara default 5 menit; Sub-agent selalu 5 menit.
Cache terbagi menjadi tiga lapisan: lapisan sistem, lapisan proyek, dan lapisan percakapan.
Berpindah model selama percakapan akan merusak cache, termasuk saat mengaktifkan mode "opus plan".
Bagaimana cara menghitung biaya cache?
Setiap Token yang di-cache biayanya 10% dari Token input biasa.
Jadi, saat dashboard menunjukkan 91 juta Token yang di-cache dalam satu hari, biaya sebenarnya sekitar 9 juta Token. Ini juga alasan mengapa saat menggunakan Claude Code dalam waktu lama tanpa cache, percakapan terasa hampir "gratis" diperpanjang.
Dua angka di dashboard yang perlu diperhatikan:
Cache create: biaya sekali saat menulis konten ke cache. Ini mulai berfungsi di percakapan berikutnya.
Cache read: Token yang Claude gunakan kembali dari cache, seperti CLAUDE.md, definisi alat, pesan sebelumnya, dll. Biaya ini 10 kali lebih murah dibanding memproses ulang sebagai input.
Jika angka Cache read tinggi, berarti kamu memanfaatkan cache secara efektif; jika rendah, berarti kamu membayar berulang untuk konteks yang sama.
Thariq dari Anthropic pernah berkata: "Kami sebenarnya memantau tingkat hit prompt cache, jika terlalu rendah, akan memicu alarm, bahkan menganggapnya sebagai insiden SEV level."
Dia juga menulis artikel bagus di X. Saat tingkat hit cache tinggi, empat hal ini terjadi bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan lebih tahan lama, dan percakapan coding panjang menjadi lebih realistis.
Tapi jika tingkat hit rendah, semua orang akan dirugikan.
Jadi, insentif kedua belah pihak sebenarnya sama: Anthropic ingin tingkat hit cache lebih tinggi, dan pengguna juga ingin tingkat hit lebih tinggi. Yang benar-benar menghambat adalah kebiasaan kecil yang tampaknya sepele tapi diam-diam mereset cache.
Bagaimana cache bertambah di setiap putaran percakapan?
Cache bergantung pada pencocokan prefix, yaitu "pencocokan awalan".
Tanpa masuk ke detail teknis terlalu dalam, cukup pahami satu hal: selama konten sebelum posisi tertentu sama persis dengan yang sudah di-cache, Claude bisa menggunakan kembali cache Token tersebut.
Sebuah percakapan baru secara garis besar seperti ini:
Menurut dokumentasi Claude Code, sebuah percakapan baru biasanya berjalan seperti ini:
Putaran pertama: belum ada cache sama sekali. Prompt sistem, konteks proyek (misalnya CLAUDE.md, memory, aturan), dan pesan pertama akan diproses ulang dan disimpan ke cache.
Putaran kedua: semua konten dari putaran pertama sudah di-cache. Claude hanya perlu memproses balasan baru dan pesan berikutnya. Biaya di putaran ini jauh lebih rendah.
Putaran ketiga dan seterusnya: sama seperti itu. Percakapan sebelumnya tetap di-cache, hanya interaksi terbaru yang perlu diproses ulang.
Cache sendiri terbagi menjadi tiga lapisan:
Dari artikel Thariq di X:
Lapisan sistem (System layer): termasuk instruksi dasar, definisi alat (read, write, bash, grep, glob) dan gaya output. Ini adalah cache global.
Lapisan proyek (Project layer): termasuk CLAUDE.md, memory, aturan proyek. Cache ini per proyek.
Lapisan percakapan (Conversation): termasuk balasan dan pesan, akan terus bertambah setiap putaran.
Jika di tengah percakapan, ada perubahan di lapisan sistem atau proyek, semua konten harus di-cache ulang dari awal. Ini adalah operasi paling "mahal". Bayangkan: sudah sampai pesan ke-16, tiba-tiba ubah prompt sistem, atau berhenti satu jam, semua Token dari pesan pertama harus diproses ulang.
Kebingungan antara 1 jam dan 5 menit
Ini bagian yang paling sering menimbulkan salah paham.
Claude Code versi berlangganan: TTL default adalah 1 jam.
API Claude: TTL default adalah 5 menit. Kamu bisa bayar lebih untuk memperpanjang sampai 1 jam.
Sub-agent di semua rencana: selalu 5 menit.
Chat di website Claude.ai: tidak ada catatan resmi. Mungkin sama seperti versi berlangganan, tapi saya belum konfirmasi.
Beberapa bulan lalu, banyak yang mengeluh kuota Claude cepat habis. Saat itu ada yang mengira Anthropic diam-diam menurunkan TTL dari 1 jam ke 5 menit tanpa pemberitahuan. Tapi kenyataannya, TTL Claude Code tetap 1 jam.
Masalahnya adalah, dokumentasi Claude Code dan API dipisah, dan keduanya memang berbeda, sehingga menimbulkan kebingungan.
Kalau kamu menjalankan workflow Sub-agent dalam jumlah besar, atau langsung pakai API, angka 5 menit ini penting. Tapi untuk 95% pengguna Claude Code, yang perlu diperhatikan hanyalah jendela 1 jam itu.
Tiga kebiasaan untuk 95% pengguna
Ini adalah bagian yang saya rasa paling berguna dalam penggunaan sehari-hari.
Jangan berhenti terlalu lama
Kalau sudah idle lebih dari satu jam, konten sebelumnya hampir pasti sudah kedaluwarsa di cache. Pesan berikutnya akan membangun cache ulang. Dalam kondisi ini, daripada melanjutkan percakapan lama yang sudah "dingin", lebih baik lakukan serah terima yang jelas, lalu mulai sesi baru, biasanya biayanya lebih murah.
Saat beralih tugas, langsung mulai ulang
/compact atau /clear memang akan merusak cache, jadi lebih baik gunakan momen ini untuk benar-benar reset.
Saya sendiri membuat skill serah terima sesi, untuk menggantikan /compact. Ia akan merangkum apa yang sudah kita lakukan, keputusan yang masih pending, file paling penting, dan langkah selanjutnya. Lalu saya jalankan /clear, tempelkan rangkuman itu, dan bisa lanjut tanpa gangguan.
Perintah compact kadang berjalan lambat. Skill serah terima ini biasanya selesai kurang dari satu menit.
Dalam percakapan Claude, dokumen besar sebaiknya dimasukkan ke Projects
Mechanisme cache di Claude.ai tidak dijelaskan secara resmi secara detail, tapi Projects jelas memiliki optimasi berbeda dari percakapan biasa. Jadi, jika kamu ingin menempel dokumen besar, lebih baik masukkan ke Projects daripada langsung ke percakapan.
Apa saja yang bisa diam-diam merusak cache?
Beberapa hal bisa mereset cache tanpa peringatan jelas:
Berpindah model: cache bergantung pada pencocokan prefix, dan setiap model punya cache sendiri. Kalau berganti model, permintaan berikutnya akan membaca ulang seluruh riwayat tanpa cache.
Mode "Opus plan": pengaturan ini memakai Opus saat perencanaan dan Sonnet saat eksekusi. Saya pernah rekomendasikan di video optimasi token, dan ada alasannya. Tapi perlu dipahami, setiap pergantian plan secara esensial adalah pergantian model, yang berarti cache harus dibangun ulang. Secara jangka panjang, ini membantu memperpanjang kuota sesi, tapi kamu harus tahu apa yang terjadi di balik layar.
Mengedit CLAUDE.md di tengah percakapan: ini boleh, tapi perubahan tidak langsung berlaku, harus menunggu restart berikutnya. Jadi cache yang sedang berjalan tidak terpengaruh.
Dashboard Token gratis saya
Screenshot yang saya tampilkan berasal dari sebuah dashboard token.
Ini adalah repositori GitHub sederhana. Kamu berikan link-nya ke Claude Code, dan ia akan melakukan deployment lokal di localhost, membaca semua riwayat percakapan kamu, bukan dari nol. Kamu bisa langsung melihat data input, output, cache create, dan cache read harian.
Perlu diingat, dashboard ini menghitung Token dari perangkat lokal. Kalau kamu beralih dari desktop ke laptop, angka tidak akan sama persis. Setiap perangkat punya statistiknya sendiri.
Kesimpulan
Prompt caching adalah topik yang sangat mendalam. Artikel Thariq jauh lebih lengkap, jadi kalau ingin gambaran lengkap, layak dibaca.
Tapi kamu tidak perlu memahami semua detail untuk mendapatkan manfaatnya. Cukup kuasai 80/20 paling penting: cache Token 10 kali lebih murah dari Token biasa; TTL Claude Code adalah 1 jam; berganti model akan merusak cache; melakukan serah terima tugas secara jelas biasanya lebih hemat daripada membiarkan sesi lama "kadaluarsa" lalu dipaksakan dilanjutkan.