Sebenarnya logika di balik ini sangat sederhana—biaya komputasi meningkat. Bukan hanya sedikit naik, tetapi kenaikan menyeluruh. Perang chip NVIDIA telah meningkat menjadi pertarungan tingkat geopolitik, konsumsi energi pusat data mendekati batas jaringan listrik. Era di mana uang investor digunakan untuk subsidi kita telah resmi berakhir.

Saya pernah melihat beberapa tagihan perusahaan. Astaga, angka-angka itu bisa membuat CFO terbangun di tengah malam. Ada perusahaan yang setiap bulan melakukan lebih dari sepuluh juta panggilan API, dan mereka menyadari bahwa mereka melakukan hal paling bodoh—menggunakan GPT-4 untuk membantu pengguna mereset kata sandi, mengirim puluhan PDF berisi ribuan kata langsung ke model agar "menemukan jawaban sendiri", dan agen-agen yang tidak memiliki mekanisme pemutus yang baik yang melakukan retry secara gila-gilaan saat API down.

Ini tampak seperti masalah teknik, tetapi pada dasarnya adalah masalah pola pikir.

Saya menemukan tim yang benar-benar sukses saat ini melakukan tiga hal. Pertama adalah cache semantik—pengguna bertanya "bagaimana mereset kata sandi" ratusan kali setiap hari, mengapa harus memanggil model besar setiap saat? Langsung cocokkan pertanyaan serupa dan kembalikan jawaban dari cache, tanpa menghabiskan token sama sekali. Kedua adalah kompresi prompt—menggunakan algoritma untuk mengompresi prompt sistem yang panjang dari 1000 token menjadi 300 token tanpa kehilangan informasi, sehingga mesin bisa berkomunikasi dalam bahasa mesin. Ketiga adalah routing model—menyerahkan tugas sederhana ke model kecil yang murah, dan hanya menggunakan GPT-4 untuk inferensi yang kompleks.

Lebih menarik lagi adalah pendekatan dari kerangka kerja terdepan. OpenClaw, misalnya, untuk menyesuaikan dengan lingkungan terbatas seperti perangkat mobile, mengontrol penggunaan token secara ekstrem. Mereka memaksa model mengeluarkan output sesuai JSON Schema, tidak membiarkan AI "ngobrol", hanya "mengisi formulir". Hermes memperkenalkan mekanisme memori dinamis—menyimpan beberapa putaran percakapan terakhir, dan jika melebihi batas, merangkum poin-poin utama menggunakan model ringan dan menyimpannya ke dalam basis vektor. Ini bukan sekadar membuang sampah, tetapi manajemen memori secara bedah.

Jadi, seluruh pola pikir industri sedang mengalami perubahan. Dari pola pikir konsumsi yang dulu "cukup keren untuk terhubung ke LLM", sekarang harus beralih ke pola pikir investasi. Setiap penggunaan token harus dihitung ROI-nya. Uang yang dikeluarkan, apa yang sebenarnya dibawa ke bisnis? Jika solusi tradisional hanya butuh biaya 0,1 yuan untuk menyelesaikan, tetapi mengakses model besar memakan biaya 1 yuan dan hanya meningkatkan konversi sebesar 2%, maka harus dipotong. Tanpa ragu.

Akhir-akhir ini saya katakan "tidak" kepada departemen bisnis. Ketika mereka mengusulkan, "Bisakah AI membaca semua 100.000 laporan riset dan memberi ringkasan," saya balik bertanya: "Biaya API yang mencapai puluhan juta token ini, apakah manfaat bisnisnya bisa menutupnya?"

Diam.

Ini terdengar sama sekali tidak keren, seperti pemilik toko kelontong tradisional yang menghitung biaya stok dengan cara kuno. Tapi inilah jalan yang harus ditempuh industri AI. Saat gelombang surut, yang bertahan bukan orang yang memegang model paling mahal, tetapi mereka yang melihat angka token yang melompat cepat di dashboard, dan tetap tenang yakin bahwa mereka mendapatkan lebih banyak daripada yang mereka keluarkan.

Hanya tim yang memperlakukan setiap tetes token seperti emas murni yang benar-benar akan mengenakan baju zirah sejati.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
260.39K Popularitas
#
CryptoMarketSeesVolatility
317.38K Popularitas
#
IsraelStrikesIranBTCPlunges
33.76K Popularitas
#
rsETHAttackUpdate
111.31K Popularitas
#
US-IranTalksStall
500.33K Popularitas

Sematkan

peta situs

Saya akhir-akhir ini memikirkan sebuah pertanyaan yang agak menyentuh hati: Mengapa layanan AI yang dulu mengklaim "percobaan gratis" sekarang mulai mengenakan biaya?

Topik Trending

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Sematkan