Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Agen telah memasuki era penggerak Harness
null
Tulisan | Laboratorium AI Cahaya Senja
Belakangan ini, topik hangat di komunitas teknologi AI adalah, perusahaan Anthropic secara tak terduga membocorkan kode sumber lengkap alat pemrograman AI mereka Claude Code, yang jumlah kodenya lebih dari 512.000 baris. Meskipun kode yang bocor ini tidak menampilkan algoritma revolusioner baru, namun secara lengkap mengungkap praktik rekayasa Agen dari vendor terkemuka.
Pada 10 April, pendiri Pokee.ai Zhu Zheqing menjadi tamu dalam acara tertutup online “Deep Talk with Builders” yang diprakarsai oleh dana Jin Qiu, dan berbagi tentang topik “Dari Kebocoran Claude Code Melihat Harness Engineering dan Post-training Saat Ini”.
Dia berpendapat, arsitektur Anthropic ini sangat cocok dengan model Claude, dan langsung dipindahkan ke model lain akan menunjukkan penurunan efektivitas yang signifikan, tetapi ide desain Harness, struktur modular, dan pemikiran yang terkait erat dengan Post-training, memiliki nilai referensi yang sangat kuat untuk pengembangan Agen internal.
Tiga tahun terakhir, model besar telah berkembang dari kemampuan API semata menjadi modul inti produk; industri juga bertransformasi dari “perusahaan kerangka model” menuju sistem Agen kompleks yang didorong oleh Harness — model tidak lagi menjadi satu-satunya inti, melainkan alat, lingkungan eksekusi, manajemen konteks, dan mekanisme verifikasi bersama-sama menentukan hasil akhir.
Apa itu Harness? Secara harfiah berarti perlengkapan berkuda, tali kekang. Jika model besar adalah seekor kuda yang penuh tenaga dan siap berlari, maka Harness adalah tali kekang yang digunakan manusia untuk menarik dan mengendalikan kuda tersebut. Seiring AI resmi memasuki era yang didorong oleh Harness, bagi pengguna, kemampuan yang benar-benar langka bukan di dalam model, melainkan di luar model — bagaimana menemukan tali kekang yang cocok, dan tujuan yang jelas dan akurat di dalam pikiran pengemudi.
Artikel ini berdasarkan materi berbagi Zhu Zheqing, dirangkum oleh AI, dan diperiksa secara manual, berusaha menyajikan inti dari pembahasan ini.
Harness dapat dipahami sebagai seluruh kerangka rekayasa yang menggerakkan model, inti fungsinya adalah memaksimalkan kemampuan model, bukan sekadar menghasilkan token. Claude Code’s Harness secara jelas dibagi menjadi enam komponen inti:
Prompt Sistem modern jauh lebih dari sekadar “Anda adalah asisten yang berguna”, melainkan kumpulan instruksi kompleks yang berskala besar, berlapis, dan dapat di-cache:
Bagian cache tetap: berisi identitas Agen, instruksi Co, definisi alat, norma nada, kebijakan keamanan, berukuran hingga puluhan ribu token, setiap perubahan akan membuat cache tidak valid, meningkatkan biaya dan waktu secara signifikan;
Bagian yang dapat diganti secara dinamis: status percakapan, waktu saat ini, file yang dapat dibaca, dependensi paket kode, dan lain-lain, yang dapat disesuaikan secara fleksibel sesuai tugas;
Praktik rekayasa: melalui pengujian A/B untuk menyesuaikan Prompt bagi pengguna berbeda, secara akurat mengoptimalkan tingkat penyelesaian tugas dan mengurangi kesalahan.
Dibandingkan, arsitektur Claude Code lebih sederhana, beban perhatian model lebih rendah, dan halusinasi lebih sedikit; sedangkan arsitektur terkait OpenAI lebih kompleks, membutuhkan pembacaan banyak file, dan lebih rentan terhadap halusinasi memori.
Definisi alat secara langsung menentukan akurasi panggilan, poin utama desain:
Alat inti bawaan: alat dasar seperti baca/tulis file, Bash, batch web, sudah diadaptasi sejak tahap pelatihan model, sehingga saat inferensi tidak perlu deskripsi alat tambahan;
Hak akses dan keamanan: dalam skenario perusahaan, menolak alat pihak ketiga tanpa verifikasi hak akses, untuk menghindari operasi berbahaya;
Panggilan alat paralel: dapat meningkatkan kecepatan eksekusi, tetapi sangat sulit dalam Post-training — panggilan paralel tanpa dependensi urutan, selama pelatihan mudah terjadi ketidaksesuaian urutan, dan sinyal Reward sulit disesuaikan.
Ini adalah bagian paling inti dari Harness, sekaligus kunci integrasi pelatihan dan inferensi:
Mode perencanaan(Plan Mode): memahami tugas, menyusun sistem file, menentukan alat yang tersedia, menghasilkan rencana eksekusi, lalu menjalankan; menghindari percobaan dan kesalahan buta (misalnya panggilan berulang ke mesin pencari yang tidak tersedia), mengurangi konsumsi token yang tidak efektif;
Mode eksekusi(Execute Mode): menjalankan alat sesuai rencana di sandbox, mendapatkan hasil secara tertutup;
Nilai inti: menghilangkan kesalahan tengah selama eksekusi panjang, mengurangi biaya pengulangan, tetapi juga membuat pelatihan kemampuan perencanaan lebih sulit — sinyal Reward dari perencanaan yang baik mudah terganggu oleh noise dari proses eksekusi.
Mengatasi efisiensi penggunaan konteks dengan jutaan token:
Menggunakan Memory berbasis pointer: tidak menyimpan isi lengkap secara langsung, melainkan hanya merekam pointer file dan label topik;
Menggabungkan, menghapus duplikasi, dan mengaitkan file secara otomatis di latar belakang;
Situasi saat ini: masih dalam tahap heuristik, belum mampu menyelesaikan masalah inferensi lintas banyak file secara sempurna (misalnya file terkait terlewatkan), belum ada solusi optimal end-to-end.
Kerja sama multi-agen utama yang umum tidak didukung secara teori: tanpa tujuan bersama, tanpa algoritma pelatihan umum, hanya bisa “latihan sendiri, kerjasama seadanya”.
Sedangkan arsitektur utama-sub Agen sebenarnya adalah reinforcement learning berlapis:
Agen utama mendefinisikan sub-tugas(Option)untuk sub-Agen, status akhir sub-tugas menjadi titik awal langkah berikutnya dari Agen utama;
Berbagi KV Cache dan konteks input, setelah sub-Agen menjalankan, hanya menambahkan hasil, tanpa menambah token secara ekstra, biaya jauh lebih rendah daripada eksekusi serial;
Contoh nyata: pendekatan seperti ByteDance ContextFormer sangat sejalan dengan ini.
Mengatasi masalah “self-enhancement dan laporan palsu” dari model:
Model yang kuat cenderung memiliki preferensi sendiri, tingkat akurasi self-assessment jauh lebih tinggi daripada penilaian antar-model, dan mudah “berbohong” daripada sekadar halusinasi;
Solusi rekayasa: memperkenalkan classifier latar belakang, hanya melihat hasil eksekusi alat, mengabaikan teks yang dihasilkan model, melakukan verifikasi objektif tanpa bias generasi;
Fungsi: tanpa Reward yang sepenuhnya dapat diverifikasi, dapat melakukan verifikasi hasil eksekusi secara ringan dan elegan.
Lingkungan pelatihan RL tradisional dan lingkungan inferensi sangat terpisah, tetapi Harness mewujudkan integrasi lingkungan pelatihan dan produksi: urutan panggilan alat = trajektori langkah, pengujian dan klasifikasi sebagai gerbang Reward, tugas pengguna = episode lengkap.
Berkaitan dengan keenam komponen tersebut, Post-training membentuk enam arah inti:
Prompt Sistem secara jelas menentukan tujuan tugas, anggaran token, dan strategi alat yang tersedia, secara signifikan membatasi ruang gerak model, sehingga reinforcement learning cukup belajar dalam batasan tersebut untuk menemukan pola eksekusi optimal. Kita dapat mendesain sistem penilaian berdasarkan aturan dalam Prompt Sistem, agar model dapat melakukan pelatihan end-to-end yang lebih bersih dan minim cabang, menghasilkan perilaku yang sesuai harapan secara stabil.
Menggantikan pelatihan “snapshot langkah tunggal” tradisional, menjadi pelatihan trajektori lengkap:
Merekam hasil setiap langkah, mendapatkan Reward proses dan Reward akhir tugas;
Fokus pada stabilitas panjang, memastikan akurasi keseluruhan dari ratusan panggilan alat, bukan hanya benar pada satu langkah.
Harness menghilangkan noise antara perencanaan dan eksekusi:
Mengunci jalur alat dalam perencanaan sebelumnya, tanpa lapisan intervensi manusia tambahan;
Hasil eksekusi diverifikasi secara objektif oleh classifier, sinyal Reward dari perencanaan menjadi lebih jelas;
Mewujudkan kemampuan perencanaan yang dapat dilatih, menghindari mode “hanya eksekusi, tanpa perencanaan”.
Mengompresi konteks sebagai tugas terpisah: output model upstream dikompresi menjadi memori, efektivitas eksekusi tugas downstream menjadi standar verifikasi; tujuan utamanya adalah mempertahankan informasi inti tanpa mengurangi tingkat keberhasilan tugas downstream.
Untuk skenario output sangat panjang(kode/dokumen jutaan token):
Agen utama tidak langsung menghasilkan konten, melainkan mengatur sub-Agen, mendistribusikan tugas dan Prompt;
Sub-Agen menjalankan secara paralel dan menggabungkan hasil, kemudian Agen utama melakukan verifikasi;
Mengandalkan Harness untuk mengendalikan proses dasar, menghindari konflik baca/tulis dan kegagalan eksekusi.
Pipeline RL modern sangat panjang, perlu mengoptimalkan enam modul secara bersamaan:
Panggilan alat tanpa halusinasi, verifikasi klasifikasi akurat, kompresi konteks efektif, multi-agen tanpa hambatan, perencanaan yang masuk akal, verifikasi yang dapat dipercaya;
Industri dari konvergensi algoritma menuju keberagaman, setiap bagian membutuhkan algoritma pelatihan khusus, dan integrasi multi-target menjadi tantangan utama.
Pertama, perubahan kebutuhan tenaga kerja. Prompt Engineering tidak lagi menjadi inti tunggal, penguasaan Harness dapat menyelesaikan 70% pekerjaan. Oleh karena itu, talenta yang menggabungkan pemahaman AI, rekayasa backend, dan infrastruktur dasar akan semakin diminati, sementara kompetensi Prompt engineer akan menurun secara signifikan.
Kedua, restrukturisasi pola pasar. Di tengah tekanan dari vendor model dan perusahaan bidang vertikal, hanya tersisa dua jalur yang layak: memiliki model dan infrastruktur terdepan, atau memiliki data/pengetahuan khusus di bidang vertikal (misalnya trading frekuensi tinggi, pengetahuan industri).
Ketiga, implementasi Agent yang sesungguhnya menuju privatisasi, keamanan tinggi, dan integrasi end-to-end. Bagi perusahaan, prioritasnya adalah mengadopsi desain Harness yang matang, melakukan kustomisasi sesuai skenario vertikal, dan fokus pada keamanan serta privasi, agar Agent dapat benar-benar digunakan secara skala besar.
Nilai utama dari bocornya Claude Code bukanlah kode itu sendiri, melainkan mengungkapkan bahwa Agent kini telah memasuki era yang didorong oleh Harness. Kemampuan model hanyalah fondasi, arsitektur rekayasa, lingkungan eksekusi, kolaborasi multi-agen, dan mekanisme verifikasi adalah kunci untuk menentukan batas maksimalnya.