Catatan editor: Banyak orang yang menggunakan Claude Code, pengalaman paling langsung adalah konsumsi Token terlalu cepat, percakapan panjang mudah menghabiskan kuota. Tapi dari sudut pandang insinyur Anthropic, yang benar-benar mempengaruhi biaya seringkali bukan berapa banyak kode yang kamu tulis, melainkan apakah sistem mampu terus-menerus menggunakan kembali konteks yang sudah diproses.

Inti dari artikel ini adalah bagaimana menggunakan mekanisme cache untuk menghemat Token. Penulis dalam seminggu berhasil menggunakan kembali lebih dari 300 juta Token melalui cache, dengan volume cache harian mencapai 91 juta. Karena biaya Token yang di-cache hanya 10% dari Token input biasa, ini berarti 91 juta Token yang di-cache secara biaya sebenarnya setara dengan sekitar 9 juta Token biasa. Mengapa percakapan panjang Claude Code tampak lebih "tahan lama"? Bukan karena model bekerja gratis, melainkan karena banyak konteks yang berulang berhasil digunakan kembali secara efektif.

Kunci dari prompt caching adalah "jangan memutus cache". Claude Code akan menyimpan cache secara berlapis: prompt sistem, definisi alat, CLAUDE.md, aturan proyek, dan percakapan sejarah; selama prefix permintaan berikutnya tetap sama, Claude bisa langsung membaca cache tanpa harus memproses ulang seluruh konteks. Internal Anthropic juga memantau tingkat penggunaan kembali prompt cache, karena ini tidak hanya mempengaruhi kuota pengguna, tetapi juga langsung berpengaruh pada biaya layanan model dan efisiensi operasional.

Bagi pengguna biasa, tidak perlu memahami semua detail dasar, cukup kuasai beberapa kebiasaan kunci: jangan biarkan percakapan menganggur lebih dari 1 jam; lakukan serah terima sesi saat beralih tugas; hindari sering berganti model; dokumen besar sebaiknya dimasukkan ke Projects, bukan di-paste berulang kali ke dalam percakapan.

Artikel ini, daripada membahas teknik menghemat Token, lebih tepat disebut sebagai metode penggunaan Claude Code yang mendekati pola pikir insinyur: anggap konteks sebagai aset, buat cache terus-menerus digunakan kembali, dan kurangi pengulangan perhitungan dalam percakapan panjang.

Berikut adalah isi aslinya:

Saya minggu ini menghemat 300 juta Token, 91 juta per hari, lebih dari 300 juta dalam seminggu.

Saya tidak mengubah pengaturan apapun. Ini hanyalah prompt caching yang berfungsi normal di latar belakang.

Namun setelah saya benar-benar memahami apa itu cache dan bagaimana menghindari "memutus" cache, dalam kuota penggunaan yang sama, percakapan saya bisa berlangsung lebih lama. Jadi, saya rangkum panduan pengantar Claude Code prompt caching 80/20 ini, tanpa menyentuh detail mendalam API.

TL;DR

Biaya Token yang di-cache hanya 10% dari Token input biasa. 91 juta Token yang di-cache, secara biaya setara sekitar 9 juta Token.

Versi berlangganan Claude Code dengan cache TTL adalah 1 jam; API secara default 5 menit; Sub-agent selalu 5 menit.

Cache terbagi menjadi tiga lapisan: lapisan sistem, lapisan proyek, dan lapisan percakapan.

Berpindah model selama percakapan akan merusak cache, termasuk saat mengaktifkan mode "opus plan".

Bagaimana cara menghitung biaya cache?

Setiap Token yang di-cache biayanya 10% dari Token input biasa.

Jadi, saat dashboard menunjukkan 91 juta Token yang di-cache dalam satu hari, biaya sebenarnya sekitar 9 juta Token. Ini juga alasan mengapa saat menggunakan Claude Code dalam waktu lama tanpa cache, percakapan terasa hampir "gratis" diperpanjang.

Dua angka di dashboard yang perlu diperhatikan:

Cache create: biaya sekali saat menulis konten ke cache. Ini mulai berfungsi di percakapan berikutnya.
Cache read: Token yang Claude gunakan kembali dari cache, seperti CLAUDE.md, definisi alat, pesan sebelumnya, dll. Biaya ini 10 kali lebih murah dibanding memproses ulang sebagai input.

Jika angka Cache read tinggi, berarti kamu memanfaatkan cache secara efektif; jika rendah, berarti kamu membayar berulang untuk konteks yang sama.

Thariq dari Anthropic pernah berkata: "Kami sebenarnya memantau tingkat hit prompt cache, jika terlalu rendah, akan memicu alarm, bahkan menganggapnya sebagai insiden SEV level."

Dia juga menulis artikel bagus di X. Saat tingkat hit cache tinggi, empat hal ini terjadi bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan lebih tahan lama, dan percakapan coding panjang menjadi lebih realistis.

Tapi jika tingkat hit rendah, semua orang akan dirugikan.

Jadi, insentif kedua belah pihak sebenarnya sama: Anthropic ingin tingkat hit cache lebih tinggi, dan pengguna juga ingin tingkat hit lebih tinggi. Yang benar-benar menghambat adalah kebiasaan kecil yang tampaknya sepele tapi diam-diam mereset cache.

Bagaimana cache bertambah di setiap putaran percakapan?

Cache bergantung pada pencocokan prefix, yaitu "pencocokan awalan".

Tanpa masuk ke detail teknis terlalu dalam, cukup pahami satu hal: selama konten sebelum posisi tertentu sama persis dengan yang sudah di-cache, Claude bisa menggunakan kembali cache Token tersebut.

Sebuah percakapan baru secara garis besar seperti ini:

Menurut dokumentasi Claude Code, sebuah percakapan baru biasanya berjalan seperti ini:

Putaran pertama: belum ada cache sama sekali. Prompt sistem, konteks proyek (misalnya CLAUDE.md, memory, aturan), dan pesan pertama akan diproses ulang dan disimpan ke cache.

Putaran kedua: semua konten dari putaran pertama sudah di-cache. Claude hanya perlu memproses balasan baru dan pesan berikutnya. Biaya di putaran ini jauh lebih rendah.

Putaran ketiga dan seterusnya: sama seperti itu. Percakapan sebelumnya tetap di-cache, hanya interaksi terbaru yang perlu diproses ulang.

Cache sendiri terbagi menjadi tiga lapisan:

Dari artikel Thariq di X:

Lapisan sistem (System layer): termasuk instruksi dasar, definisi alat (read, write, bash, grep, glob) dan gaya output. Ini adalah cache global.

Lapisan proyek (Project layer): termasuk CLAUDE.md, memory, aturan proyek. Cache ini per proyek.

Lapisan percakapan (Conversation): termasuk balasan dan pesan, akan terus bertambah setiap putaran.

Jika di tengah percakapan, ada perubahan di lapisan sistem atau proyek, semua konten harus di-cache ulang dari awal. Ini adalah operasi paling "mahal". Bayangkan: sudah sampai pesan ke-16, tiba-tiba ubah prompt sistem, atau berhenti satu jam, semua Token dari pesan pertama harus diproses ulang.

Kebingungan antara 1 jam dan 5 menit

Ini bagian yang paling sering menimbulkan salah paham.

Claude Code versi berlangganan: TTL default adalah 1 jam.

API Claude: TTL default adalah 5 menit. Kamu bisa bayar lebih untuk memperpanjang sampai 1 jam.
Sub-agent di semua rencana: selalu 5 menit.

Chat di website Claude.ai: tidak ada catatan resmi. Mungkin sama seperti versi berlangganan, tapi saya belum konfirmasi.

Beberapa bulan lalu, banyak yang mengeluh kuota Claude cepat habis. Saat itu ada yang mengira Anthropic diam-diam menurunkan TTL dari 1 jam ke 5 menit tanpa pemberitahuan. Tapi kenyataannya, TTL Claude Code tetap 1 jam.

Masalahnya adalah, dokumentasi Claude Code dan API dipisah, dan keduanya memang berbeda, sehingga menimbulkan kebingungan.

Kalau kamu menjalankan workflow Sub-agent dalam jumlah besar, atau langsung pakai API, angka 5 menit ini penting. Tapi untuk 95% pengguna Claude Code, yang perlu diperhatikan hanyalah jendela 1 jam itu.

Tiga kebiasaan untuk 95% pengguna

Ini adalah bagian yang saya rasa paling berguna dalam penggunaan sehari-hari.

Jangan berhenti terlalu lama

Kalau sudah idle lebih dari satu jam, konten sebelumnya hampir pasti sudah kedaluwarsa di cache. Pesan berikutnya akan membangun cache ulang. Dalam kondisi ini, daripada melanjutkan percakapan lama yang sudah "dingin", lebih baik lakukan serah terima yang jelas, lalu mulai sesi baru, biasanya biayanya lebih murah.

Saat beralih tugas, langsung mulai ulang

/compact atau /clear memang akan merusak cache, jadi lebih baik gunakan momen ini untuk benar-benar reset.

Saya sendiri membuat skill serah terima sesi, untuk menggantikan /compact. Ia akan merangkum apa yang sudah kita lakukan, keputusan yang masih pending, file paling penting, dan langkah selanjutnya. Lalu saya jalankan /clear, tempelkan rangkuman itu, dan bisa lanjut tanpa gangguan.

Perintah compact kadang berjalan lambat. Skill serah terima ini biasanya selesai kurang dari satu menit.

Dalam percakapan Claude, dokumen besar sebaiknya dimasukkan ke Projects

Mechanisme cache di Claude.ai tidak dijelaskan secara resmi secara detail, tapi Projects jelas memiliki optimasi berbeda dari percakapan biasa. Jadi, jika kamu ingin menempel dokumen besar, lebih baik masukkan ke Projects daripada langsung ke percakapan.

Apa saja yang bisa diam-diam merusak cache?

Beberapa hal bisa mereset cache tanpa peringatan jelas:

Berpindah model: cache bergantung pada pencocokan prefix, dan setiap model punya cache sendiri. Kalau berganti model, permintaan berikutnya akan membaca ulang seluruh riwayat tanpa cache.

Mode "Opus plan": pengaturan ini memakai Opus saat perencanaan dan Sonnet saat eksekusi. Saya pernah rekomendasikan di video optimasi token, dan ada alasannya. Tapi perlu dipahami, setiap pergantian plan secara esensial adalah pergantian model, yang berarti cache harus dibangun ulang. Secara jangka panjang, ini membantu memperpanjang kuota sesi, tapi kamu harus tahu apa yang terjadi di balik layar.

Mengedit CLAUDE.md di tengah percakapan: ini boleh, tapi perubahan tidak langsung berlaku, harus menunggu restart berikutnya. Jadi cache yang sedang berjalan tidak terpengaruh.

Dashboard Token gratis saya

Screenshot yang saya tampilkan berasal dari sebuah dashboard token.

Ini adalah repositori GitHub sederhana. Kamu berikan link-nya ke Claude Code, dan ia akan melakukan deployment lokal di localhost, membaca semua riwayat percakapan kamu, bukan dari nol. Kamu bisa langsung melihat data input, output, cache create, dan cache read harian.

Perlu diingat, dashboard ini menghitung Token dari perangkat lokal. Kalau kamu beralih dari desktop ke laptop, angka tidak akan sama persis. Setiap perangkat punya statistiknya sendiri.

Kesimpulan

Prompt caching adalah topik yang sangat mendalam. Artikel Thariq jauh lebih lengkap, jadi kalau ingin gambaran lengkap, layak dibaca.

Tapi kamu tidak perlu memahami semua detail untuk mendapatkan manfaatnya. Cukup kuasai 80/20 paling penting: cache Token 10 kali lebih murah dari Token biasa; TTL Claude Code adalah 1 jam; berganti model akan merusak cache; melakukan serah terima tugas secara jelas biasanya lebih hemat daripada membiarkan sesi lama "kadaluarsa" lalu dipaksakan dilanjutkan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka

Hadiah
9
5
Posting ulang
Bagikan

Komentar

Tambahkan komentar

GateUser-0fdb3438

· 8jam yang lalu

Strategi cache +1, lain kali perancangan arsitektur harus merencanakan siklus hidup konteks dengan baik

Lihat AsliBalas0

BudgetDeFi

· 11jam yang lalu

Penggunaan kembali cache adalah kunci utama pengurangan biaya, penghematan 300 juta Token cukup untuk menjalankan berapa banyak putaran pengujian

Lihat AsliBalas0

0xPeachy

· 11jam yang lalu

Ingin tahu berapa banyak dari 300 juta ini yang merupakan duplikasi potongan kode, rasanya tingkat penggunaan kembali kode proyek harus sangat tinggi

Lihat AsliBalas0

DrawTheCandlestickChartIn

· 11jam yang lalu

Pengguna Claude Code sangat gembira, akhirnya tahu ke mana batasnya pergi

Lihat AsliBalas0

GateUser-83c80dd0

· 11jam yang lalu

91 juta cache harian, berapa tingkat keberhasilannya? Penasaran dengan detail strategi cache mereka

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
323.51K Popularitas
#
PlatinumCardCreatorExclusive
117.3K Popularitas
#
IsraelStrikesIranBTCPlunges
49.03K Popularitas
#
#DailyPolymarketHotspot
1.05M Popularitas
#
GateSquarePizzaDay
650.26K Popularitas

Disematkan

peta situs

Panduan Cache Kode Claude oleh Insinyur Anthropic yang Menghemat 300 Juta Token Seminggu

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan