Agen AI Mengeluarkan Sampah? Masalahnya adalah Anda Tidak Rela Membakar Token

Question

Masalahnya bukan pada prompt!Penulis: Systematic Long ShortDiterjemahkan: Deep潮 TechFlow**Deep潮 Panduan Utama:** Inti dari artikel ini hanya satu kalimat: kualitas output AI Agent sebanding dengan jumlah Token yang kamu gunakan.Penulis tidak berbicara secara umum tentang teori, melainkan memberikan dua metode konkret yang bisa langsung kamu mulai hari ini, dan dengan jelas menetapkan batasan di mana tumpukan Token tidak bisa lagi membantu—yaitu masalah "Kebaruan".Bagi pembaca yang sedang menggunakan Agent untuk menulis kode atau menjalankan workflow, informasi ini sangat padat dan dapat langsung diterapkan.Pendahuluan--Baiklah, kamu harus mengakui judul ini cukup menarik perhatian—tapi sungguh, ini bukan lelucon.Pada tahun 2023, saat kita masih menggunakan LLM untuk menjalankan kode produksi, orang-orang di sekitar terkejut karena persepsi umum saat itu adalah LLM hanya bisa menghasilkan sampah yang tidak bisa digunakan. Tapi kita tahu satu hal yang tidak disadari orang lain: kualitas output Agent adalah fungsi dari jumlah Token yang kamu gunakan. Sesederhana itu.Kamu bisa membuktikannya sendiri dengan beberapa eksperimen. Misalnya, minta Agent menyelesaikan tugas pemrograman yang kompleks dan agak tidak umum—misalnya, mengimplementasikan dari awal algoritma optimisasi konveks dengan batasan tertentu. Mulai dengan tingkat pemikiran terendah; lalu tingkatkan ke tingkat tertinggi, minta dia review kode sendiri dan lihat berapa banyak bug yang bisa ditemukan. Coba semua tingkat pemikiran. Kamu akan melihat secara langsung: jumlah bug berkurang secara monoton seiring dengan bertambahnya Token yang digunakan.Tidak sulit dipahami, kan?Lebih banyak Token = Lebih sedikit kesalahan. Kamu bisa melangkah lebih jauh dari itu, ini pada dasarnya adalah inti dari proses review kode—versi yang disederhanakan. Dalam konteks yang sama, jika kamu menginvestasikan banyak Token (misalnya, membiarkan AI menganalisis kode baris per baris dan menilai apakah ada bug), kamu bisa menangkap sebagian besar, bahkan semua bug. Proses ini bisa diulang puluhan atau ratusan kali, dari sudut pandang yang berbeda, sehingga akhirnya semua bug bisa ditemukan.Gagasan bahwa "lebih banyak Token meningkatkan kualitas Agent" juga didukung oleh bukti empiris: tim yang mengklaim bisa menulis kode langsung ke produksi sepenuhnya dengan Agent, biasanya adalah penyedia model dasar itu sendiri atau perusahaan dengan dana sangat besar.Jadi, jika kamu masih kesulitan mendapatkan kode produksi dari Agent—saya katakan secara jujur, masalahnya ada di dirimu. Atau, di dompetmu.Bagaimana Menilai Apakah Token yang Kamu Gunakan Sudah Cukup-----------------Saya pernah menulis satu artikel lengkap yang menyatakan bahwa masalahnya bukan pada kerangka kerja (harness) yang kamu bangun, dan "sederhanakan saja" tetap bisa menghasilkan sesuatu yang bagus. Saya tetap berpegang pada pendapat itu. Kamu sudah membacanya dan mengikuti saran di sana, tapi tetap kecewa dengan output Agent. Kamu kirim DM, saya baca tapi tidak membalas.Ini adalah balasan saya.Kinerja Agent yang buruk dan tidak mampu menyelesaikan masalah biasanya karena kamu tidak menggunakan cukup Token.Berapa banyak Token yang dibutuhkan untuk menyelesaikan sebuah masalah tergantung pada skala, kompleksitas, dan kebaruannya."2+2 berapa?" tidak membutuhkan banyak Token."Tolong buatkan bot yang bisa scan semua pasar di Polymarket dan Kalshi, cari pasar yang secara semantik mirip dan seharusnya diselesaikan dalam waktu yang sama, tetapkan batasan arbitrase, dan otomatis trading dengan latensi rendah saat peluang arbitrase muncul"—ini membutuhkan banyak Token.Dalam praktik, kami menemukan satu hal menarik.Jika kamu menginvestasikan cukup banyak Token untuk menangani masalah yang muncul dari skala dan kompleksitas, Agent pasti bisa menyelesaikannya. Dengan kata lain, jika kamu ingin membangun sesuatu yang sangat kompleks, dengan banyak komponen dan baris kode, selama kamu menginvestasikan cukup Token, masalah itu akhirnya bisa terselesaikan secara tuntas.Ada satu pengecualian kecil tapi penting.Masalahmu tidak boleh terlalu baru. Pada tahap ini, tidak peduli berapa banyak Token yang kamu gunakan, masalah "kebaruan" tetap tidak bisa diatasi. Token yang cukup banyak bisa mengurangi kesalahan akibat kompleksitas, tapi tidak bisa membuat Agent menciptakan sesuatu yang benar-benar baru dari nol.Kesimpulan ini sebenarnya memberi kita sedikit kelegaan.Kami telah menghabiskan banyak energi dan Token—sangat banyak—untuk mencoba agar Agent bisa mereplikasi proses investasi institusional tanpa banyak arahan. Tujuannya adalah untuk memahami berapa tahun lagi kita (sebagai peneliti kuantitatif) akan digantikan sepenuhnya oleh AI. Tapi ternyata, Agent sama sekali tidak mampu mendekati proses investasi institusional yang layak. Kami yakin ini karena data pelatihan mereka sama sekali tidak pernah melihat proses tersebut—artinya, proses investasi institusional tidak ada dalam data pelatihan.Jadi, jika masalahmu adalah kebaruan, jangan berharap bisa menyelesaikannya hanya dengan menumpuk Token. Kamu harus memandu proses eksplorasi sendiri. Tapi begitu kamu sudah tahu solusi implementasinya, kamu bisa aman mengumpulkan Token sebanyak apapun untuk menjalankan proses tersebut—tidak peduli seberapa besar basis kode dan komponen yang terlibat.Ada satu prinsip heuristik sederhana: anggaran Token harus meningkat sebanding dengan jumlah baris kode.Apa yang Dilakukan Token Lebih Banyak----------------Dalam praktik, Token tambahan biasanya meningkatkan kualitas engineering Agent melalui beberapa cara:Memberinya waktu lebih banyak dalam satu percobaan untuk berpikir, sehingga dia bisa menemukan kesalahan logika sendiri. Semakin dalam proses berpikirnya = perencanaan yang lebih baik = peluang keberhasilan yang lebih tinggi.Mengizinkan dia melakukan beberapa percobaan independen, mencoba berbagai solusi. Beberapa solusi lebih baik dari yang lain. Dengan mencoba beberapa kali, dia bisa memilih yang terbaik.Demikian pula, lebih banyak percobaan perencanaan independen memungkinkan dia untuk menyingkirkan jalur yang lemah dan mempertahankan yang paling promising.Lebih banyak Token memungkinkan dia menggunakan konteks baru untuk mengkritik pekerjaan sebelumnya, memberi kesempatan untuk perbaikan, bukan terjebak dalam "inertia" berpikir tertentu.Tentu saja, yang paling saya sukai: lebih banyak Token berarti dia bisa menggunakan pengujian dan alat bantu untuk memverifikasi. Menjalankan kode secara nyata untuk memastikan berjalan dengan benar adalah cara paling andal untuk memastikan jawaban benar.Logika ini berjalan karena kegagalan engineering Agent biasanya bukan karena kebetulan. Hampir selalu karena terlalu cepat memilih jalur yang salah, tidak memeriksa apakah jalur tersebut benar-benar bisa dilalui (di awal), atau tidak cukup anggaran untuk memperbaiki dan kembali setelah menemukan kesalahan.Cerita ini seperti itu. Secara harfiah, Token adalah kualitas keputusan yang kamu beli. Bayangkan ini sebagai pekerjaan riset: jika kamu meminta seseorang menjawab soal sulit secara langsung, kualitas jawabannya akan menurun seiring meningkatnya tekanan waktu.Pada akhirnya, riset adalah tentang menghasilkan "pengetahuan jawaban" yang mendasar. Manusia menghabiskan waktu biologis untuk menghasilkan jawaban yang lebih baik, sedangkan Agent menghabiskan lebih banyak waktu komputasi untuk mencapai jawaban yang lebih baik.Bagaimana Meningkatkan Agent-mu------------Mungkin kamu masih setengah yakin, tapi banyak penelitian yang mendukung hal ini, dan jujur saja, "pengaturan parameter reasoning" sendiri sudah menjadi bukti utama bahwa ini memang solusi yang kamu perlukan.Saya sangat suka satu makalah yang meneliti pelatihan dengan sejumlah kecil contoh reasoning yang dirancang khusus, lalu memaksa model untuk terus berpikir saat ingin berhenti—caranya adalah dengan menambahkan "Wait" (tunggu) di tempat dia ingin berhenti. Hanya dengan itu, performa benchmark meningkat dari 50% menjadi 57%.Saya ingin katakan secara langsung: jika kamu terus mengeluh bahwa kode yang dihasilkan Agent kurang memuaskan, kemungkinan besar kamu belum cukup meningkatkan tingkat pemikiran maksimalnya.Saya berikan dua solusi sederhana.### Solusi Sederhana 1: WAIT (Tunggu)Langkah paling mudah yang bisa kamu lakukan hari ini: buat loop otomatis—setelah selesai, biarkan Agent melakukan review berulang kali dengan konteks baru, dan setiap kali menemukan masalah, perbaiki.Kalau kamu melihat trik sederhana ini meningkatkan performa engineering Agent-mu, berarti kamu sudah paham bahwa masalahnya hanya soal jumlah Token—maka, ayo bergabung dengan klub penggunaan Token lebih banyak.### Solusi Sederhana 2: VERIFY (Verifikasi)Minta Agent untuk melakukan verifikasi secara dini dan sering terhadap pekerjaannya sendiri. Buat pengujian untuk memastikan jalur yang dipilih benar-benar bisa dijalankan. Ini sangat berguna untuk proyek yang sangat kompleks dan bersarang dalam, di mana satu fungsi dipanggil oleh banyak fungsi lain di hilir. Menangkap kesalahan di hulu bisa menghemat banyak waktu komputasi (Token) di kemudian hari. Jadi, jika memungkinkan, pasang checkpoint verifikasi di seluruh proses pembangunan.Setelah satu bagian selesai dan main Agent bilang sudah selesai? Minta Agent lain untuk memverifikasi lagi. Aliran pemikiran yang berbeda bisa menutupi bias sistematis.Itu saja. Saya bisa menulis banyak tentang topik ini, tapi saya yakin, jika kamu menyadari dan menerapkan dua hal ini dengan baik, 95% masalahmu akan terselesaikan. Percayalah, melakukan hal sederhana secara maksimal, lalu menambah kompleksitas sesuai kebutuhan.Saya sudah menekankan bahwa "kebaruan" adalah masalah yang tidak bisa diselesaikan hanya dengan Token. Saya ingin mengulang lagi, karena kamu pasti akan menghadapi jebakan ini suatu saat dan mengeluh bahwa menumpuk Token tidak berguna.Kalau masalah yang ingin kamu selesaikan tidak ada dalam data pelatihan, maka kamu adalah orang yang harus menyediakan solusi. Oleh karena itu, pengetahuan domain tetap sangat penting.

Agen AI Mengeluarkan Sampah? Masalahnya adalah Anda Tidak Rela Membakar Token

Pendahuluan

Bagaimana Menilai Apakah Token yang Kamu Gunakan Sudah Cukup

Apa yang Dilakukan Token Lebih Banyak

Bagaimana Meningkatkan Agent-mu

Solusi Sederhana 1: WAIT (Tunggu)

Solusi Sederhana 2: VERIFY (Verifikasi)

Topik Trending

Gate13thAnniversaryGlobalCelebration

GateProofOfReservesReport

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

GoldSeesLargestWeeklyDropIn43Years

Hot Gate Fun

以“德”服人

以“德”服人

如风如雨

如风如雨

8821

bjt

mc

MC币

🐉

华夏

Sematkan