Filosofi hemat di era AI: Bagaimana memanfaatkan setiap Token secara efektif

Judul Asli: Filosofi Hemat di Era AI: Bagaimana Menggunakan Setiap Token dengan Efisien

Penulis Asli: Dongcha Beating

Sumber Asli:

Repost: Mars Finance

Di era telegram yang dihitung per kata, pena dan tinta adalah uang. Orang terbiasa merangkum ribuan kata menjadi yang paling esensial, “cepat kembali” setara dengan surat panjang, “selamat” adalah pesan terpenting.

Kemudian, telepon masuk ke rumah, tetapi biaya panggilan jarak jauh dihitung per detik. Panggilan jarak jauh orang tua selalu singkat dan padat, selesai urusan langsung diputus, jika pembicaraan sedikit berlanjut, pikiran tentang biaya telepon akan memotong sapaan yang baru muncul.

Lalu, broadband masuk ke rumah, internet dihitung per jam, orang-orang memperhatikan timer di layar, halaman web langsung ditutup begitu terbuka, video hanya bisa diunduh, streaming media saat itu adalah kata yang mewah. Di ujung setiap bar kemajuan unduhan, tersembunyi keinginan orang untuk “terhubung ke dunia” dan ketakutan terhadap “saldo tidak cukup”.

Unit biaya berubah-ubah, tetapi naluri menghemat tetap tak berubah sejak dulu.

Sekarang, Token menjadi mata uang di era AI. Namun, kebanyakan orang belum belajar bagaimana mengelola pengeluaran secara cermat di era ini, karena kita juga belum belajar bagaimana menghitung keuntungan dan kerugian dalam algoritma yang tak terlihat.

Ketika ChatGPT pertama kali muncul pada 2022, hampir tidak ada yang peduli apa itu Token. Saat itu, era makan bersama AI secara massal, bayar 20 dolar per bulan, mau ngobrol sebanyak dan sebisa mungkin.

Namun, sejak AI Agent mulai populer baru-baru ini, pengeluaran Token menjadi hal yang harus diperhatikan oleh setiap pengguna AI Agent.

Berbeda dari percakapan tanya jawab sederhana, di balik satu alur tugas ada ratusan bahkan ribuan panggilan API, pemikiran independen Agent memiliki biaya, setiap koreksi diri, setiap panggilan alat, semuanya berhubungan dengan angka di tagihan. Kemudian, kamu akan menyadari uang yang kamu isi tiba-tiba tidak cukup, dan kamu pun tidak tahu apa yang sebenarnya dilakukan Agent.

Dalam kehidupan nyata, semua orang tahu cara menghemat uang. Saat belanja di pasar, kita tahu memilih daun yang kotor dan berjamur sebelum menimbang; saat naik taksi ke bandara, sopir tahu menghindari jalan tol saat jam sibuk pagi hari.

Logika menghemat uang di dunia digital juga sama, hanya saja satuan biaya dari “jin” dan “kilometer” diganti dengan Token.

Dulu, penghematan terjadi karena kekurangan; di era AI, penghematan bertujuan untuk ketepatan.

Kami berharap melalui artikel ini, dapat membantu Anda menyusun sebuah metodologi penghematan di era AI, agar setiap uang yang dikeluarkan benar-benar digunakan secara efisien.

Sebelum menimbang, buang daun yang busuk

Di era AI, nilai informasi tidak lagi ditentukan oleh luasnya, tetapi oleh kemurniannya.

Logika biaya AI adalah berdasarkan jumlah kata yang dibaca. Apapun yang kamu berikan—baik pengetahuan mendalam maupun omong kosong format—selama AI membacanya, kamu harus membayar.

Oleh karena itu, cara berpikir pertama untuk menghemat Token adalah menanamkan “rasio sinyal terhadap noise” ke dalam alam bawah sadar.

Setiap huruf, gambar, atau baris kode yang kamu berikan ke AI harus dibayar. Jadi, sebelum menyerahkan apapun ke AI, ingatlah untuk bertanya: berapa banyak dari ini yang benar-benar dibutuhkan AI? Berapa banyak daun busuk yang kotor ini?

Misalnya, kalimat panjang seperti “Halo, tolong bantu saya…” atau pengenalan latar belakang yang berulang, komentar kode yang tidak dihapus bersih, semuanya adalah daun busuk yang kotor.

Selain itu, pemborosan paling umum adalah langsung mengirim screenshot PDF atau halaman web ke AI. Memang, ini memudahkanmu sendiri, tetapi “menghemat” dalam era AI sering berarti “mahal.”

PDF lengkap dengan format, selain isi utama, juga berisi header, footer, anotasi grafik, watermark tersembunyi, dan banyak kode format untuk layout. Hal-hal ini tidak membantu AI memahami masalahmu, tetapi semuanya tetap dihitung biayanya.

Lain kali, ingatlah untuk mengonversi PDF menjadi teks Markdown yang bersih sebelum diberikan ke AI. Saat kamu mengubah PDF 10MB menjadi teks bersih 10KB, kamu tidak hanya menghemat 99% biaya, tetapi juga mempercepat proses kerja AI secara signifikan.

Gambar adalah makhluk lain yang menyedot uang.

Dalam logika model visual, AI tidak peduli seberapa indah foto yang kamu ambil, yang penting adalah berapa banyak piksel yang digunakan.

Sebagai contoh, logika perhitungan resmi Claude: konsumsi Token gambar = lebar piksel × tinggi piksel ÷ 750.

Sebuah gambar 1000×1000 piksel menghabiskan sekitar 1334 Token, jika dihitung berdasarkan harga Claude Sonnet 4.6, satu gambar sekitar 0,004 dolar;

Namun, jika gambar yang sama dikompres ke 200×200 piksel, hanya menghabiskan 54 Token, biayanya turun menjadi 0,00016 dolar, selisihnya 25 kali lipat.

Banyak orang langsung mengirim foto resolusi tinggi dari ponsel atau screenshot 4K ke AI, tanpa sadar bahwa konsumsi Token dari gambar ini cukup untuk membuat AI membaca sebagian besar novel pendek. Jika tugasnya hanya mengenali teks dalam gambar atau melakukan penilaian visual sederhana—misalnya mengenali jumlah uang di faktur, membaca teks dalam manual, atau menilai apakah ada lampu lalu lintas—resolusi 4K adalah pemborosan murni, cukup dengan mengompres gambar ke resolusi minimal yang bisa digunakan.

Namun, alasan utama Token terbuang di input bukanlah format file, melainkan cara berbicara yang tidak efisien.

Banyak orang memperlakukan AI seperti tetangga nyata, terbiasa berkomunikasi dengan obrolan sosial, mengirim kalimat “Tolong buatkan halaman web,” lalu menunggu AI mengeluarkan setengah jadi, lalu menambahkan detail, dan berulang-ulang. Percakapan seperti ini, seperti menekan pasta gigi, akan membuat AI berulang kali menghasilkan konten, dan setiap revisi menambah konsumsi Token.

Engineer dari Tencent Cloud menemukan bahwa, untuk kebutuhan yang sama, percakapan berulang seperti ini bisa menghabiskan Token 3 sampai 5 kali lipat dibandingkan memberi instruksi yang jelas sekaligus.

Cara benar menghemat uang adalah dengan meninggalkan percakapan yang tidak efisien, dan menjelaskan semua kebutuhan, batasan, serta contoh referensi sekaligus. Kurangi penjelasan yang berbelit-belit seperti “Jangan lakukan ini,” karena kalimat negatif biasanya lebih mahal dalam pemahaman; langsung katakan “Lakukan seperti ini,” dan berikan contoh yang jelas dan benar.

Selain itu, jika kamu sudah tahu apa targetnya, langsung beritahu ke AI tanpa membuat AI harus bertindak sebagai detektif.

Saat kamu perintahkan AI “Cari kode yang terkait pengguna,” AI harus melakukan pencarian besar-besaran di belakang layar, analisis, dan tebak-tebakan; tetapi jika kamu langsung katakan “Lihat file src/services/user.ts,” konsumsi Token akan berbeda jauh. Dalam dunia digital, informasi yang setara adalah penghematan terbesar.

Jangan bayar untuk “kesopanan” AI

Ada aturan tersembunyi dalam penagihan model besar yang banyak orang tidak sadari: Token keluaran biasanya lebih mahal 3 sampai 5 kali lipat dari Token masukan.

Artinya, ucapan yang dihasilkan AI jauh lebih mahal daripada yang kamu katakan padanya. Sebagai contoh, harga Claude Sonnet 4.6, biaya input per juta Token hanya 3 dolar, sedangkan output melonjak menjadi 15 dolar, selisih 5 kali lipat.

Kalimat sopan seperti “Baik, saya sudah memahami kebutuhan Anda, sekarang saya akan mulai menjawab…” atau penutup seperti “Semoga informasi ini bermanfaat bagi Anda” memang sopan dalam komunikasi manusia, tetapi di tagihan API, kalimat formal ini tidak menambah informasi dan tetap memakan biaya.

Cara paling efektif mengurangi pemborosan di output adalah dengan memberi aturan kepada AI. Gunakan instruksi sistem yang tegas: jangan bertele-tele, jangan berikan penjelasan, jangan ulangi permintaan, langsung berikan jawaban.

Aturan ini cukup sekali dibuat dan akan berlaku di setiap percakapan, merupakan metode pengelolaan keuangan yang benar-benar “satu kali investasi, manfaat permanen.” Tapi saat membuat aturan, banyak orang terjebak dalam kesalahan lain: menumpuk instruksi panjang dalam bahasa alami.

Data pengujian engineer menunjukkan bahwa efektivitas instruksi tidak tergantung pada jumlah katanya, tetapi pada kepadatannya. Mengompresi instruksi sistem dari 500 kata menjadi 180 kata dengan menghapus kata sopan yang tidak perlu, menggabungkan instruksi yang berulang, dan menyusun ulang menjadi daftar poin yang ringkas, kualitas output AI hampir tidak berubah, tetapi konsumsi Token per panggilan bisa turun hingga 64%.

Ada satu cara kontrol yang lebih aktif, yaitu membatasi panjang output. Banyak orang tidak pernah mengatur batas output, membiarkan AI bebas berkreasi, dan ini sering menyebabkan biaya melambung tak terkendali. Kamu mungkin hanya membutuhkan kalimat singkat, tetapi AI demi menunjukkan “kepandaian” malah membuatkan esai 800 kata tanpa diminta.

Jika kamu hanya membutuhkan data, paksa AI untuk mengembalikan dalam format terstruktur, bukan deskripsi panjang dalam bahasa alami. Dalam jumlah informasi yang sama, Token dalam format JSON jauh lebih hemat dibandingkan paragraf bebas. Ini karena data terstruktur menghilangkan semua kata penghubung, kata seru, dan kata keterangan yang tidak perlu, hanya menyisakan inti logika yang padat. Di era AI, kamu harus sadar bahwa yang layak kamu bayar adalah nilai dari hasil, bukan penjelasan diri AI yang tidak berguna.

Selain itu, “berpikir berlebihan” dari AI juga menguras saldo akunmu secara liar.

Beberapa model tingkat tinggi memiliki mode “berpikir ekstensif,” yang melakukan banyak inferensi internal sebelum menjawab. Proses inferensi ini juga harus dihitung biaya, dan dihitung berdasarkan harga output, sangat mahal.

Mode ini sebenarnya dirancang untuk tugas kompleks yang membutuhkan logika mendalam. Tapi, kebanyakan orang memilih mode ini saat menanyakan pertanyaan sederhana. Untuk tugas yang tidak membutuhkan inferensi mendalam, beritahu AI secara tegas “Tidak perlu penjelasan, langsung berikan jawaban,” atau matikan mode berpikir ekstensif secara manual, ini bisa menghemat banyak uang.

Jangan biarkan AI mengulang-ulang masa lalu

Model besar tidak memiliki memori nyata, mereka hanya mengulang-ulang data lama secara gila-gilaan.

Ini adalah mekanisme dasar yang banyak orang tidak tahu. Setiap kali kamu mengirim pesan baru dalam sebuah jendela percakapan, AI tidak mulai dari memahami kalimatmu, melainkan membaca ulang seluruh isi percakapan sebelumnya, termasuk setiap balasan, kode, dan dokumen referensi, baru kemudian menjawab.

Dalam tagihan Token, mekanisme “mengulang dan belajar” ini tidak gratis. Seiring bertambahnya jumlah percakapan, bahkan sekadar bertanya satu kata, biaya membaca ulang seluruh riwayat akan meningkat secara eksponensial. Mekanisme ini menentukan bahwa semakin berat riwayat percakapan, semakin mahal setiap pertanyaanmu.

Seseorang melacak 496 percakapan nyata yang berisi lebih dari 20 pesan, dan menemukan bahwa pesan pertama rata-rata membaca 14.000 Token, biayanya sekitar 3,6 sen; pada pesan ke-50, rata-rata membaca 79.000 Token, biayanya sekitar 4,5 sen, meningkat 80%. Selain itu, konteks semakin panjang, pada pesan ke-50, AI harus memproses konteks yang 5,6 kali lipat dari pesan pertama.

Solusinya, kebiasaan paling sederhana adalah: satu tugas, satu percakapan.

Setelah satu topik selesai, langsung mulai percakapan baru. Jangan anggap AI sebagai jendela chat yang tidak pernah dimatikan. Kebiasaan ini terdengar sederhana, tetapi banyak orang tidak mampu melakukannya, selalu takut “kalau nanti perlu lagi isi sebelumnya.” Faktanya, sebagian besar kekhawatiran itu tidak akan pernah terjadi, dan demi kekhawatiran itu, kamu sudah membayar berkali-kali lipat di setiap pesan baru.

Kalau memang perlu melanjutkan percakapan, tetapi konteks sudah terlalu panjang, kamu bisa menggunakan fitur kompresi. Claude Code punya perintah /compact yang bisa merangkum riwayat percakapan panjang menjadi ringkasan singkat, membantu kamu melakukan “pembersihan digital.”

Selain itu, ada logika penghematan lain yaitu Prompt Caching. Jika kamu berulang kali menggunakan instruksi sistem yang sama, atau setiap kali percakapan mengacu pada dokumen referensi yang sama, AI akan menyimpan cache bagian ini, dan saat dipanggil lagi, biaya pengambilan cache ini jauh lebih kecil daripada membayar penuh setiap kali.

Harga resmi Anthropic menunjukkan bahwa Token yang di-cache harganya 1/10 dari harga normal. Prompt Caching dari OpenAI juga bisa mengurangi biaya input sekitar 50%. Sebuah makalah yang dipublikasikan di arXiv Januari 2026 menguji beberapa platform AI untuk tugas panjang, dan menemukan bahwa cache prompt bisa mengurangi biaya API dari 45% sampai 80%.

Artinya, isi yang sama, pertama kali diberikan ke AI harus bayar penuh, setelah itu setiap panggilan berikutnya cukup bayar 1/10 dari harga. Untuk pengguna yang setiap hari menggunakan dokumen standar atau instruksi sistem yang sama, fitur ini bisa menghemat banyak Token.

Tapi, Prompt Caching memiliki syarat: instruksi sistem dan dokumen referensi harus sama persis dan ditempatkan di awal percakapan. Jika ada perubahan, cache akan hilang dan biaya penuh akan kembali berlaku. Jadi, jika kamu punya standar kerja tetap, tuliskan secara permanen, jangan diubah-ubah.

Terakhir, teknik pengelolaan konteks adalah memuat sesuai kebutuhan. Banyak orang memasukkan semua aturan, dokumen, dan catatan ke dalam instruksi sistem, karena alasan “untuk berjaga-jaga.”

Tapi, cara ini justru memboroskan Token karena kamu memuat ribuan kata aturan padahal hanya melakukan tugas sederhana. Dokumentasi resmi Claude Code menyarankan agar file CLAUDE.md dibatasi maksimal 200 baris, dan aturan khusus untuk berbagai skenario dipisah menjadi file skill terpisah, dimuat hanya saat diperlukan. Menjaga konteks tetap bersih adalah bentuk penghormatan tertinggi terhadap daya komputasi.

Jangan pakai Porsche untuk belanja sayur

Model AI berbeda-beda harganya sangat jauh.

Claude Opus 4.6 per juta Token input biaya 5 dolar, output 25 dolar; Claude Haiku 3.5 hanya 0,8 dolar input dan 4 dolar output, hampir 6 kali lipat. Menggunakan model terbaik untuk tugas-tugas kecil seperti pengumpulan data dan format layout tidak hanya lambat, tetapi juga sangat mahal.

Cara cerdas adalah menerapkan prinsip “pembagian kerja” yang umum di masyarakat manusia ke dalam dunia AI, menugaskan tugas dengan tingkat kesulitan berbeda ke model yang berbeda pula.

Seperti mempekerjakan orang di dunia nyata, kamu tidak akan menyewa ahli dengan gaji jutaan dolar untuk sekadar memindahkan batu bata di lokasi konstruksi. AI pun sama. Dokumentasi resmi Claude Code menyarankan: Sonnet untuk sebagian besar tugas pemrograman, Opus untuk keputusan arsitektur kompleks dan reasoning multi langkah, dan Haiku untuk tugas kecil.

Lebih praktis lagi, bangun “workflow dua tahap.” Pada tahap pertama, gunakan model dasar gratis atau murah untuk pekerjaan kasar seperti pengumpulan data, pembersihan format, pembuatan draft awal, klasifikasi sederhana, dan rangkuman. Setelah itu, serahkan hasil yang sudah disaring dan bersih ke model tingkat tinggi untuk pengambilan keputusan utama dan penyempurnaan mendalam.

Misalnya, jika kamu ingin menganalisis laporan industri 100 halaman, pertama gunakan Gemini Flash untuk mengekstrak data dan kesimpulan utama, lalu buat ringkasan 10 halaman. Kemudian, berikan ringkasan ini ke Claude Opus untuk analisis mendalam dan penilaian. Workflow dua tahap ini dapat memangkas biaya secara signifikan tanpa mengorbankan kualitas.

Lebih maju lagi, adalah pembagian tugas berbasis dekomposisi tugas kompleks menjadi beberapa sub-tugas independen, dan menyesuaikan model yang paling cocok untuk masing-masing.

Misalnya, tugas menulis kode bisa dimulai dengan model murah untuk membuat kerangka dan template, lalu bagian logika utama diserahkan ke model mahal. Setiap sub-tugas memiliki konteks yang bersih dan fokus, hasilnya lebih akurat dan biaya lebih rendah.

Kamu sebenarnya tidak perlu mengeluarkan Token

Semua diskusi sebelumnya sebenarnya menyelesaikan masalah taktik “bagaimana menghemat uang,” tetapi ada satu proposisi logika yang lebih mendasar yang sering diabaikan: apakah tindakan ini memang perlu menghabiskan Token?

Penghematan paling ekstrem bukan dari optimisasi algoritma, tetapi dari keputusan untuk tidak melakukan sesuatu. Kita terbiasa mencari jawaban serba bisa dari AI, tetapi lupa bahwa memanggil model besar yang mahal seringkali seperti menembak nyamuk dengan meriam.

Misalnya, membiarkan AI otomatis mengelola email, yang akan memahami, mengklasifikasi, dan membalas setiap email sebagai tugas terpisah, akan sangat boros Token. Tapi, jika kamu meluangkan 30 detik untuk menyapu bersih kotak masuk dan menyaring email yang jelas tidak perlu diproses AI, lalu sisanya diserahkan ke AI, biaya langsung turun jauh. Penilaian manusia di sini bukan hambatan, melainkan filter terbaik.

Orang zaman telegram tahu bahwa setiap menulis satu kata harus membayar lebih, jadi mereka akan menimbang-nimbang, ini adalah intuisi terhadap sumber daya. Di era AI juga sama, saat kamu benar-benar tahu berapa biaya setiap kalimat yang diucapkan AI, kamu akan lebih bijak memutuskan apakah tugas ini layak diserahkan ke AI, model mana yang harus digunakan, dan apakah konteks ini masih relevan.

Kemampuan menimbang ini adalah kemampuan paling hemat biaya. Di zaman daya komputasi semakin mahal, penggunaan paling cerdas bukanlah menggantikan manusia, tetapi menggabungkan AI dan manusia sesuai keahlian masing-masing. Ketika sensitivitas terhadap Token ini menjadi refleks, kamu benar-benar beralih dari menjadi pelengkap daya komputasi menjadi penguasa daya komputasi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan