Agen telah memasuki era penggerak Harness

null

Tulisan | Laboratorium AI Cahaya Senja

Belakangan ini, topik hangat di komunitas teknologi AI adalah, perusahaan Anthropic secara tak terduga membocorkan kode sumber lengkap alat pemrograman AI mereka Claude Code, yang jumlah kodenya lebih dari 512.000 baris. Meskipun kode yang bocor ini tidak menampilkan algoritma revolusioner baru, namun secara lengkap mengungkap praktik rekayasa Agen dari vendor terkemuka.

Pada 10 April, pendiri Pokee.ai Zhu Zheqing menjadi tamu dalam acara tertutup online “Deep Talk with Builders” yang diprakarsai oleh dana Jin Qiu, dan berbagi tentang topik “Dari Kebocoran Claude Code Melihat Harness Engineering dan Post-training Saat Ini”.

Dia berpendapat, arsitektur Anthropic ini sangat cocok dengan model Claude, dan langsung dipindahkan ke model lain akan menunjukkan penurunan efektivitas yang signifikan, tetapi ide desain Harness, struktur modular, dan pemikiran yang terkait erat dengan Post-training, memiliki nilai referensi yang sangat kuat untuk pengembangan Agen internal.

Tiga tahun terakhir, model besar telah berkembang dari kemampuan API semata menjadi modul inti produk; industri juga bertransformasi dari “perusahaan kerangka model” menuju sistem Agen kompleks yang didorong oleh Harness — model tidak lagi menjadi satu-satunya inti, melainkan alat, lingkungan eksekusi, manajemen konteks, dan mekanisme verifikasi bersama-sama menentukan hasil akhir.

Apa itu Harness? Secara harfiah berarti perlengkapan berkuda, tali kekang. Jika model besar adalah seekor kuda yang penuh tenaga dan siap berlari, maka Harness adalah tali kekang yang digunakan manusia untuk menarik dan mengendalikan kuda tersebut. Seiring AI resmi memasuki era yang didorong oleh Harness, bagi pengguna, kemampuan yang benar-benar langka bukan di dalam model, melainkan di luar model — bagaimana menemukan tali kekang yang cocok, dan tujuan yang jelas dan akurat di dalam pikiran pengemudi.

Artikel ini berdasarkan materi berbagi Zhu Zheqing, dirangkum oleh AI, dan diperiksa secara manual, berusaha menyajikan inti dari pembahasan ini.

Harness dapat dipahami sebagai seluruh kerangka rekayasa yang menggerakkan model, inti fungsinya adalah memaksimalkan kemampuan model, bukan sekadar menghasilkan token. Claude Code’s Harness secara jelas dibagi menjadi enam komponen inti:

  1. Prompt Sistem Multi-Level(Prompt Sistem Berlapis)

Prompt Sistem modern jauh lebih dari sekadar “Anda adalah asisten yang berguna”, melainkan kumpulan instruksi kompleks yang berskala besar, berlapis, dan dapat di-cache:

Bagian cache tetap: berisi identitas Agen, instruksi Co, definisi alat, norma nada, kebijakan keamanan, berukuran hingga puluhan ribu token, setiap perubahan akan membuat cache tidak valid, meningkatkan biaya dan waktu secara signifikan;

Bagian yang dapat diganti secara dinamis: status percakapan, waktu saat ini, file yang dapat dibaca, dependensi paket kode, dan lain-lain, yang dapat disesuaikan secara fleksibel sesuai tugas;

Praktik rekayasa: melalui pengujian A/B untuk menyesuaikan Prompt bagi pengguna berbeda, secara akurat mengoptimalkan tingkat penyelesaian tugas dan mengurangi kesalahan.

Dibandingkan, arsitektur Claude Code lebih sederhana, beban perhatian model lebih rendah, dan halusinasi lebih sedikit; sedangkan arsitektur terkait OpenAI lebih kompleks, membutuhkan pembacaan banyak file, dan lebih rentan terhadap halusinasi memori.

  1. Tool Schema(Standar Alat)

Definisi alat secara langsung menentukan akurasi panggilan, poin utama desain:

Alat inti bawaan: alat dasar seperti baca/tulis file, Bash, batch web, sudah diadaptasi sejak tahap pelatihan model, sehingga saat inferensi tidak perlu deskripsi alat tambahan;

Hak akses dan keamanan: dalam skenario perusahaan, menolak alat pihak ketiga tanpa verifikasi hak akses, untuk menghindari operasi berbahaya;

Panggilan alat paralel: dapat meningkatkan kecepatan eksekusi, tetapi sangat sulit dalam Post-training — panggilan paralel tanpa dependensi urutan, selama pelatihan mudah terjadi ketidaksesuaian urutan, dan sinyal Reward sulit disesuaikan.

  1. Tool Call Loop(Loop Panggilan Alat)

Ini adalah bagian paling inti dari Harness, sekaligus kunci integrasi pelatihan dan inferensi:

Mode perencanaan(Plan Mode): memahami tugas, menyusun sistem file, menentukan alat yang tersedia, menghasilkan rencana eksekusi, lalu menjalankan; menghindari percobaan dan kesalahan buta (misalnya panggilan berulang ke mesin pencari yang tidak tersedia), mengurangi konsumsi token yang tidak efektif;

Mode eksekusi(Execute Mode): menjalankan alat sesuai rencana di sandbox, mendapatkan hasil secara tertutup;

Nilai inti: menghilangkan kesalahan tengah selama eksekusi panjang, mengurangi biaya pengulangan, tetapi juga membuat pelatihan kemampuan perencanaan lebih sulit — sinyal Reward dari perencanaan yang baik mudah terganggu oleh noise dari proses eksekusi.

  1. Context Manager(Pengelola Konteks)

Mengatasi efisiensi penggunaan konteks dengan jutaan token:

Menggunakan Memory berbasis pointer: tidak menyimpan isi lengkap secara langsung, melainkan hanya merekam pointer file dan label topik;

Menggabungkan, menghapus duplikasi, dan mengaitkan file secara otomatis di latar belakang;

Situasi saat ini: masih dalam tahap heuristik, belum mampu menyelesaikan masalah inferensi lintas banyak file secara sempurna (misalnya file terkait terlewatkan), belum ada solusi optimal end-to-end.

  1. Sub Agent(Sub Agen)

Kerja sama multi-agen utama yang umum tidak didukung secara teori: tanpa tujuan bersama, tanpa algoritma pelatihan umum, hanya bisa “latihan sendiri, kerjasama seadanya”.

Sedangkan arsitektur utama-sub Agen sebenarnya adalah reinforcement learning berlapis:

Agen utama mendefinisikan sub-tugas(Option)untuk sub-Agen, status akhir sub-tugas menjadi titik awal langkah berikutnya dari Agen utama;

Berbagi KV Cache dan konteks input, setelah sub-Agen menjalankan, hanya menambahkan hasil, tanpa menambah token secara ekstra, biaya jauh lebih rendah daripada eksekusi serial;

Contoh nyata: pendekatan seperti ByteDance ContextFormer sangat sejalan dengan ini.

  1. Verification Hooks(Kait Verifikasi)

Mengatasi masalah “self-enhancement dan laporan palsu” dari model:

Model yang kuat cenderung memiliki preferensi sendiri, tingkat akurasi self-assessment jauh lebih tinggi daripada penilaian antar-model, dan mudah “berbohong” daripada sekadar halusinasi;

Solusi rekayasa: memperkenalkan classifier latar belakang, hanya melihat hasil eksekusi alat, mengabaikan teks yang dihasilkan model, melakukan verifikasi objektif tanpa bias generasi;

Fungsi: tanpa Reward yang sepenuhnya dapat diverifikasi, dapat melakukan verifikasi hasil eksekusi secara ringan dan elegan.

Lingkungan pelatihan RL tradisional dan lingkungan inferensi sangat terpisah, tetapi Harness mewujudkan integrasi lingkungan pelatihan dan produksi: urutan panggilan alat = trajektori langkah, pengujian dan klasifikasi sebagai gerbang Reward, tugas pengguna = episode lengkap.

Berkaitan dengan keenam komponen tersebut, Post-training membentuk enam arah inti:

  1. Sistem Prompt(Prompt Sistem)untuk menyelaraskan perilaku

Prompt Sistem secara jelas menentukan tujuan tugas, anggaran token, dan strategi alat yang tersedia, secara signifikan membatasi ruang gerak model, sehingga reinforcement learning cukup belajar dalam batasan tersebut untuk menemukan pola eksekusi optimal. Kita dapat mendesain sistem penilaian berdasarkan aturan dalam Prompt Sistem, agar model dapat melakukan pelatihan end-to-end yang lebih bersih dan minim cabang, menghasilkan perilaku yang sesuai harapan secara stabil.

  1. Pelatihan end-to-end untuk panggilan alat panjang

Menggantikan pelatihan “snapshot langkah tunggal” tradisional, menjadi pelatihan trajektori lengkap:

Merekam hasil setiap langkah, mendapatkan Reward proses dan Reward akhir tugas;

Fokus pada stabilitas panjang, memastikan akurasi keseluruhan dari ratusan panggilan alat, bukan hanya benar pada satu langkah.

  1. Pelatihan terpadu Plan-Execute

Harness menghilangkan noise antara perencanaan dan eksekusi:

Mengunci jalur alat dalam perencanaan sebelumnya, tanpa lapisan intervensi manusia tambahan;

Hasil eksekusi diverifikasi secara objektif oleh classifier, sinyal Reward dari perencanaan menjadi lebih jelas;

Mewujudkan kemampuan perencanaan yang dapat dilatih, menghindari mode “hanya eksekusi, tanpa perencanaan”.

  1. Pelatihan kompresi memori khusus

Mengompresi konteks sebagai tugas terpisah: output model upstream dikompresi menjadi memori, efektivitas eksekusi tugas downstream menjadi standar verifikasi; tujuan utamanya adalah mempertahankan informasi inti tanpa mengurangi tingkat keberhasilan tugas downstream.

  1. Pelatihan kolaborasi sub-Agen

Untuk skenario output sangat panjang(kode/dokumen jutaan token):

Agen utama tidak langsung menghasilkan konten, melainkan mengatur sub-Agen, mendistribusikan tugas dan Prompt;

Sub-Agen menjalankan secara paralel dan menggabungkan hasil, kemudian Agen utama melakukan verifikasi;

Mengandalkan Harness untuk mengendalikan proses dasar, menghindari konflik baca/tulis dan kegagalan eksekusi.

  1. Reinforcement Learning multi-target

Pipeline RL modern sangat panjang, perlu mengoptimalkan enam modul secara bersamaan:

Panggilan alat tanpa halusinasi, verifikasi klasifikasi akurat, kompresi konteks efektif, multi-agen tanpa hambatan, perencanaan yang masuk akal, verifikasi yang dapat dipercaya;

Industri dari konvergensi algoritma menuju keberagaman, setiap bagian membutuhkan algoritma pelatihan khusus, dan integrasi multi-target menjadi tantangan utama.

Pertama, perubahan kebutuhan tenaga kerja. Prompt Engineering tidak lagi menjadi inti tunggal, penguasaan Harness dapat menyelesaikan 70% pekerjaan. Oleh karena itu, talenta yang menggabungkan pemahaman AI, rekayasa backend, dan infrastruktur dasar akan semakin diminati, sementara kompetensi Prompt engineer akan menurun secara signifikan.

Kedua, restrukturisasi pola pasar. Di tengah tekanan dari vendor model dan perusahaan bidang vertikal, hanya tersisa dua jalur yang layak: memiliki model dan infrastruktur terdepan, atau memiliki data/pengetahuan khusus di bidang vertikal (misalnya trading frekuensi tinggi, pengetahuan industri).

Ketiga, implementasi Agent yang sesungguhnya menuju privatisasi, keamanan tinggi, dan integrasi end-to-end. Bagi perusahaan, prioritasnya adalah mengadopsi desain Harness yang matang, melakukan kustomisasi sesuai skenario vertikal, dan fokus pada keamanan serta privasi, agar Agent dapat benar-benar digunakan secara skala besar.

Nilai utama dari bocornya Claude Code bukanlah kode itu sendiri, melainkan mengungkapkan bahwa Agent kini telah memasuki era yang didorong oleh Harness. Kemampuan model hanyalah fondasi, arsitektur rekayasa, lingkungan eksekusi, kolaborasi multi-agen, dan mekanisme verifikasi adalah kunci untuk menentukan batas maksimalnya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan