Claude Code 80% dari prompt dihapus begitu saja, Anthropic memberi contoh dengan Fable 5: "pengurangan biaya" di industri AI baru saja dimulai.

“Fable 5 dengan harga ini jauh lebih tinggi dari gaji harian programmer Tiongkok. Menulis kode dan membakar beberapa ratus ribu token sehari sudah sangat hemat, lalu saat melihat tagihan, ternyata ribuan RMB.”

Inilah kenyataan yang sedang terjadi. Berdasarkan data terbaru, biaya komputasi yang dikeluarkan oleh Anthropic sendiri telah mencapai 2,3 kali lipat dari total pengeluaran gaji mereka. Dengan biaya total seorang insinyur senior sebesar 224.000 dolar AS, biaya komputasi per insinyur di Anthropic sekitar 515.000 dolar AS per tahun. Artinya: manusia belum semahal model.

Di hadapan tagihan seperti ini, bahkan Claude sendiri mulai harus menghemat token.

Claude Code: Membakar Token demi Ilusi “Saya Sangat Produktif”

Baru-baru ini, industri memiliki istilah baru: Token Apocalypse (Kiamat Token).

Dari token maxing hingga token apocalypse, menandakan bahwa industri AI benar-benar mengalami perubahan paradigma yang sangat besar. Pada Maret-April tahun ini, semua orang masih saling pamer berapa banyak token yang mereka gunakan, bahkan menjadikannya semacam papan peringkat. Namun, menggunakan AI tidak otomatis berarti menghemat uang, sehingga orang mulai lebih menekankan biaya per token.

Yang lebih halus lagi, model besar juga memperluas banyak pekerjaan yang sebenarnya tidak perlu menggunakan AI. Kini kami tidak ingin membaca PDF sendiri, tidak ingin membaca teks panjang sendiri, semuanya harus diringkas oleh AI. Atau mengubahnya menjadi slide menggunakan AI, lalu melemparkannya ke orang lain, yang mungkin kemudian membaca slide itu dengan AI... AI seolah-olah memaksakan nilai tambahan pada pekerjaan yang sebenarnya sudah dangkal, sambil diam-diam menaikkan tagihan.

Kini, biaya yang tidak terkendali sudah menjadi hal biasa. Perusahaan seperti Amazon, Adobe, Atlassian, Citigroup mulai menerapkan kontrol ketat terhadap penggunaan AI:

  • Batasan level model: Beberapa karyawan perusahaan dilarang menggunakan model kelas atas seperti Claude Opus, dipaksa turun ke versi yang lebih murah;
  • Menetapkan batas individu: Uber menetapkan batas token bulanan sebesar 1500 dolar AS per insinyur;
  • Pencabutan izin total: Institusi seperti Citibank telah sepenuhnya membatasi akses ke alat AI canggih, bahkan karyawan yang tidak mencapai target penggunaan akan dicabut akun perusahaannya. Sebelumnya, CTO Uber mengakui bahwa perusahaannya menghabiskan seluruh anggaran AI tahunan dalam beberapa bulan. Walmart juga baru-baru ini menghentikan penggunaan beberapa alat.

Perusahaan besar entah mencari cara menghemat uang di mana-mana, atau langsung mengerem keras pemborosan token. Akibatnya, karyawan menerima informasi yang sangat kontradiktif: di satu sisi "AI bisa meningkatkan efisiensi Anda 100 kali lipat, harus digunakan", di sisi lain "jangan membuat perusahaan bangkrut".

Ini juga masalah paling khas dalam gelombang pertama adopsi alat AI: saat alat diluncurkan, tidak ada cukup pagar pengaman untuk mencegah perusahaan menghabiskan jutaan dolar untuk model bahasa besar, juga tidak ada mekanisme untuk mengingatkan tim bahwa token sedang habis dengan cepat. Baik itu chatbot atau alat pengodean, banyak produk mengutamakan "bisa digunakan" di tempat pertama, sementara tata kelola biaya, kuota penggunaan, segmentasi model, dan manajemen konteks dikesampingkan.

Namun pada dasarnya, Claude Code bukanlah alat efisiensi, melainkan alat pemasaran.

Tujuan desainnya sangat jelas: membuat Anda merasa produktif. Boris, manajer proyek Claude Code, pemikiran awalnya saat membuat produk ini adalah: “Jika model menjadi cukup pintar, seperti apa kode akan berubah? Bagaimana saya ingin menggunakan hal-hal ini?” — Titik awalnya bukan “bagaimana membantu pengembang menghemat token”, melainkan “bagaimana menunjukkan kecerdasan model”.

Anthropic rela membakar banyak token demi “perasaan” ini — entah itu uang Anda, atau uang mereka sendiri. Menghabiskan 200 dolar AS dalam lima menit, bagi Claude Code bukanlah kecelakaan, melainkan desain. Logika dasarnya adalah: masalah yang bisa diselesaikan dengan membakar lebih banyak token, tidak akan dicari cara yang lebih hemat token. Semua sub-agent, semua animasi UI yang mewah, semua reasoning trace yang panjang, semuanya bukan untuk efisiensi, melainkan untuk membuat Anda menatap layar dan berpikir, "Model ini benar-benar pintar, benar-benar cakap."

Di balik ini ada lingkaran pemasaran yang dirancang dengan cermat: Anda membakar banyak token, mendapatkan perasaan "produktif", lalu merasa Claude bagus, dan terus menggunakannya. Anthropic bahkan rela menanggung sendiri biaya token yang besar demi mendapatkan pengakuan emosional ini. Itu juga mengapa aplikasi desktop mereka jelas kurang berinvestasi — tujuan Claude Code tidak pernah menjadi alat yang baik, melainkan menjadi "jendela tampilan terbaik" untuk kemampuan model Anthropic.

Dan justru filosofi desain "membakar token demi pengalaman" inilah yang membuat Claude tertinggal oleh OpenAI dalam efisiensi token.

OpenAI terus-menerus menekan token. Mulai dari kompresi reasoning trace, hingga optimalisasi efisiensi model itu sendiri, filosofi mereka adalah: menggunakan lebih sedikit token, melakukan pekerjaan yang sama. Codex 5.5 adalah contoh terbaik.

Meskipun model seperti Fable 5 sangat cerdas, efisiensinya tidak tinggi dibandingkan model lain. Grafik dari Deep SWE ini sangat jelas. Jika model yang sama dibandingkan bersama, akan lebih jelas: GPT-5.5 medium hanya menggunakan 20.000 token dan mendapatkan skor yang luar biasa; sedangkan Opus 4.8 menggunakan 50.000 token, namun skornya lebih rendah.

Inilah gambaran paling langsung dari dua jalur: industri panik, Claude membakar, OpenAI menghemat. Dan pertanyaan selanjutnya adalah — karena harus menekan biaya, yang pertama harus dipotong adalah apa? Jawabannya: prompt yang sudah menumpuk terlalu lama.

Utang Prompt Claude Code: Semakin Banyak Ditumpuk, Semakin Besar Utang

Dalam presentasi terbaru, Anthropic mengatakan bahwa mereka telah menghapus 80% system prompt dari Claude Code.

Anggota tim teknis Anthropic, Tariq Shihipar, menjelaskan bahwa ini mencerminkan perubahan mendasar dalam cara memandu model AI — dulu, orang mengira semakin banyak instruksi dan contoh, semakin baik performa model; namun sekarang, logika itu tidak lagi berlaku. Model baru Fable 5 lebih imajinatif daripada contoh yang diberikan, sehingga contoh justru menjadi batasan.

Tentu ini ada unsur pemasaran, ia memuji kemampuan Fable: "Contoh justru mudah membatasi model, karena model sebenarnya lebih imajinatif daripada contoh yang kami berikan." Namun satu fakta tidak bisa dihindari: bahkan Anthropic sendiri mulai memotong system prompt.

Lalu, mengapa dulu perlu begitu banyak prompt?

Selama satu dua tahun terakhir, komunitas AI Coding membentuk pola pikir yang kaku: semakin besar konteks semakin baik, semakin banyak petunjuk alat semakin baik, semakin lengkap system prompt semakin baik. Model tidak tahu cara mengatur proyek? Tulis Agents.md. Model tidak tahu cara menggunakan alat? Tulis tool descriptions. Model kurang proaktif? Tulis panduan perilaku. Model kurang stabil? Tambahkan batasan ke system prompt.

Tidak dapat disangkal, system prompt dulu adalah daya saing inti alat AI Coding. Penyesuaian kecil pada prompt LLM dapat membawa peningkatan performa yang signifikan. Jika model yang sama terasa berbeda di Codex, Cursor, OpenCode, dan Copilot, hampir pasti karena perbedaan halus dalam prompting.

Ini juga mengapa Cursor pernah menghabiskan banyak waktu menguji system prompt, melakukan A/B testing, menyesuaikan cara prompting untuk model yang berbeda. Dibandingkan dengan menggunakan Opus di Claude Code, harness Cursor dapat meningkatkan performa model secara signifikan, beberapa benchmark bahkan mencatat peningkatan hingga 10% hingga 30%. Perbedaan inti seringkali hanya beberapa bagian prompt.

Namun masalahnya adalah selama prompt berguna, tim akan terus menambahkan hal. Model suka menggunakan alat sembarangan? Tambahkan aturan. Model kurang proaktif? Tambahkan dorongan. Model terlalu banyak mencari? Tambahkan batasan. Model tidak memahami konteks proyek? Tambahkan file markdown. Setiap penambahan punya alasan, tetapi jika ditumpuk terus, system prompt mulai menjadi beban konteks permanen yang besar.

Masalahnya: system prompt tidak gratis. Setiap kali dipanggil, itu harus dibaca, dihitung, memakan konteks.

Setelah Claude Code memasukkan semua alat dan fitur ke dalamnya, system prompt membengkak hingga 65.000 token; bahkan jika sebagian besar fitur dimatikan, masih 12.000 token. Dengan kata lain, model belum mulai menulis satu baris kode, sudah memikul sebuah buku petunjuk. Sebagai perbandingan, konteks awal Pi kurang dari seribu token.

Lebih merepotkan lagi, utang prompt lebih sulit dideteksi daripada utang kode.

Kode yang sudah tua biasanya akan terlihat saat mengubah fungsi, menjalankan tes, menangani bug. Prompt yang sudah tua mungkin hanya membuat model secara diam-diam menjadi lebih buruk. Pengguna melihat "Claude Code akhir-akhir ini tidak sepintar dulu", atau "model baru tidak sekuat yang diklaim", tetapi alasan sebenarnya mungkin system prompt lama tidak cocok dengan model baru.

Ketika prompt berubah dari daya saing menjadi beban, Anthropic memilih untuk menghapus 80% dan selanjutnya meningkatkan efisiensi token.

"Pajak Omong Kosong" Claude: Setiap Kata Tambahan, Biaya Tambahan

Claude Code terlalu banyak omong kosong.

Tahun ini, plugin bernama Caveman dengan cepat menjadi populer, khusus untuk menyelesaikan masalah ini. Namanya secara harfiah berarti "manusia gua", maksudnya berbicara seperti manusia primitif — tidak sopan, tanpa tata bahasa berlebihan, tanpa kata pengisi, hanya menyimpan inti.

Sekilas, kedengarannya seperti lelucon. Namun setelah dipahami, Anda akan menyadari bahwa ini memecahkan masalah yang sangat nyata dalam LLM: terlalu banyak omong kosong, terlalu banyak token, biaya yang tidak perlu juga menjadi tinggi.

Dan asal-usulnya justru ditujukan untuk Claude Code.

“Saya membuat Caveman pada awal April, karena saat itu saya menggunakan Claude Code secara intensif dan menyadari bahwa banyak pengeluaran token saya terbuang pada kata-kata yang tidak perlu: basa-basi, frasa ambigu, transisi, dan ekspresi seperti obrolan yang sebenarnya tidak penting dalam agent loop,” kata pencipta Caveman, Julius Brussee.

Pengujian Brussee menunjukkan bahwa dibandingkan dengan output default, Caveman dapat mengurangi 65% hingga 75% output token, namun efeknya masih melebihi perintah "tolong sederhana" biasa. Terutama memampatkan bahasa di sekitarnya, tidak mempengaruhi kode, perintah, path, URL, nama fungsi yang memerlukan ketepatan.

Dilaporkan, direktur teknik OpenAI, Shayne Sweeney, juga berkontribusi kode untuk proyek ini, untuk mendukung Codex.

Yang lebih menarik, OpenAI sudah lama menerapkan mode bahasa ini ke dalam proses berpikir.

Beberapa reasoning trace yang bocor (bukan reasoning summary yang ditampilkan ke publik) memungkinkan dunia luar melihat petunjuk. Isinya tidak seperti bahasa Inggris biasa, lebih seperti singkatan teknik yang dikompres:

"Gunakan node inti baru. Perlu inferensi. Perlu tambahkan VAE encode untuk gambar. Coba. Coba periode."

Kalimat-kalimat ini kelihatan lucu, bahkan agak kacau, tetapi fokusnya bukan pada keterbacaan, melainkan efisiensi token. Saat model melakukan penalaran internal, tidak perlu menjaga kesopanan, kelengkapan, dan kelancaran seperti berbicara dengan pengguna. Ia hanya perlu menyimpan tindakan, objek, penilaian, dan langkah selanjutnya. Dengan kata lain, selama jawaban akhir normal, model internal dapat menggunakan bahasa yang lebih pendek, lebih kasar, lebih hemat token untuk menyelesaikan pemikiran, demi mengejar efisiensi token secara gila-gilaan.

Ini bahkan lebih berguna daripada menulis prompt. Mengompresi reasoning token memberikan keuntungan lebih besar, karena agent dieksekusi dalam beberapa langkah, pemikiran langkah sebelumnya menjadi input langkah berikutnya. Setiap kali model "berpikir" lebih sedikit, penghematannya tidak hanya beberapa token saat itu, tetapi seluruh biaya berulang di rantai eksekusi berikutnya.

Inilah perbedaan yang jelas antara rute OpenAI dan Claude.

Claude selalu lebih baik dalam berbicara, dan lebih seperti asisten yang berpikir dan mengekspresikan dengan bahasa lengkap. Hanya dengan melihat reasoning trace yang jauh lebih panjang, Anda bisa menebak bahwa ia mungkin menggunakan bahasa Inggris biasa. Output dan reasoning-nya seringkali lebih panjang, sehingga lebih bergantung pada jendela konteks besar untuk menampung konten tersebut.

Ini juga mengapa Claude secara default menggunakan jendela konteks 1 juta token. Banyak orang mengira ini karena ingin memuat basis kode yang lebih besar, tetapi alasan sebenarnya lebih sederhana: apa yang dihasilkan Claude terlalu panjang, tanpa jendela sebesar itu tidak bisa menampung. Mereka bahkan buruk dalam kompaksi; saat Anda memulihkan thread lama, Claude akan menyarankan untuk tidak menyimpan konteks lengkap, melainkan mencoba compact. Karena mereka tidak menyimpan reasoning trace — faktanya, mereka membersihkannya setelah 10 hingga 20 menit, karena reasoning token terlalu tidak efisien, tidak layak disimpan selamanya, atau biayanya akan menjadi tidak masuk akal.

Sedangkan jendela konteks token model OpenAI sekitar 200.000 atau kurang, tetapi karena mereka sejak awal sudah mengompresi dengan bahasa singkat ini, hal itu bisa dilakukan.

Sebuah detail yang patut direnungkan: jika Anthropic memperbaiki masalah "terlalu banyak omong kosong", pendapatan mereka akan turun secara signifikan. Jika pengembang dapat menyelesaikan pekerjaan yang sama dengan model tetapi menghasilkan lebih sedikit token, maka itu adalah uang yang tidak bisa mereka dapatkan.

Sumber: InfoQ

Peringatan Risiko dan Ketentuan

        Pasar memiliki risiko, investasi harus hati-hati. Artikel ini bukan merupakan saran investasi pribadi, dan juga tidak mempertimbangkan tujuan investasi, situasi keuangan, atau kebutuhan khusus pengguna. Pengguna harus mempertimbangkan apakah opini, pandangan, atau kesimpulan apa pun dalam artikel ini sesuai dengan situasi spesifik mereka. Investasi berdasarkan ini adalah tanggung jawab sendiri.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan