Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Mengapa Anda harus belajar Teknik Harness? 5 Produk, 3 Aliran, 5 Prinsip Universal Penjelasan lengkap
Sistem Breakdown Harness Engineering 5 Produk, 3 Aliran (OpenAI / Anthropic / ThoughtWorks), 5 Prinsip Universal, dan Mengapa "Kegagalan Harness" Memaksa Anda Memotong Separuh Desain Setiap 6 Bulan. Artikel ini berasal dari tulisan @sairahul1 di artikel X, disusun dan diterjemahkan oleh 動區.
(Penjelasan sebelumnya: Pengantar Harness Engineering (AI Mengendalikan Engineering): Standar Pemrograman Terbaru OpenAI, Mengajarkan Mudah Mencapai Lv.1)
(Penambahan latar belakang: CEO YC berbagi rahasia AI: Masa depan milik mereka yang mampu membangun sistem bunga majemuk informasi)
Daftar Isi Artikel
Toggle
Pada Februari 2026, OpenAI dengan tim kecil menghasilkan 1 juta baris kode produksi.
Mereka sama sekali tidak menulis satu baris pun.
Dibuat oleh agen AI.
Dirancang manusia, adalah sistem yang membuat agen dapat diandalkan.
Sistem ini sekarang punya nama—Harness Engineering.
Dalam beberapa minggu, Anthropic merilis 3 makalah terkait. ThoughtWorks menyusun menjadi kerangka. Philipp Schmid dari Hugging Face menyebutnya secara langsung sebagai "Ilmu Terpenting 2026".
Dalam 90 hari, sebuah disiplin engineering baru terbentuk. Dan di luar tim infra AI, hampir tidak ada yang memahaminya.
Artikel ini akan menjelaskannya dengan jelas. Tanpa omong kosong, tanpa istilah akademik, hanya model mental yang benar-benar Anda perlukan untuk digunakan.
1. Definisi Harness
Definisi paling sederhana dari ThoughtWorks:
Harness adalah semua hal di luar model.
Menghilangkan harness → sebuah model bahasa mentah yang menebak-nebak di dalam codebase Anda.
Menambahkan harness yang tepat → sebuah sistem yang mampu menghasilkan kode produksi.
Nama ini berasal dari perlengkapan berkuda. Harness adalah tali kekang, pelana, dan pelana kuda—mengarahkan kekuatan besar yang sulit diprediksi ke arah yang berguna.
Anda bukan membuat kuda menjadi lebih pintar, Anda merancang perlengkapannya agar kekuatannya berguna.
2. Metafora OS
Philipp Schmid memberi metafora teknis terbaik: Bayangkan seperti sebuah komputer.
| Peran | | --- | | Model | CPU (daya komputasi dasar) | | Context window | RAM (memori kerja terbatas dan mudah menguap) | | Harness | OS (mengatur apa yang dilihat CPU dan kapan) | | Agent | Aplikasi yang berjalan di atasnya |
Model Anda sangat kuat. Tapi tanpa OS untuk mengelola memori, penjadwalan tugas, dan aturan eksekusi—dia hanyalah sebuah chip silikon.
Kebanyakan orang menjalankan aplikasi tanpa "sistem operasi". Jadi agen mereka langsung rusak saat masuk ke jalur produksi.
3. Apa yang benar-benar berubah pada tahun 2026
LangChain menggunakan model yang sama, menjalankan dua kali di Terminal Bench 2.0:
| Harness | | --- | Skor | | --- | --- | | Harness lama | 52.8% | | Harness baru | 66.5% |
Model yang sama. Harness berbeda. Perbedaan 13.7 poin persentase.
Vercel malah melakukan sebaliknya—mengurangi tool agent sebesar 80%. Hasilnya? Lebih baik, bukan lebih buruk.
Realitas paling tidak nyaman tahun 2026:
Jika 2025 adalah tahun agen AI membuktikan mampu menulis kode, 2026 adalah tahun penemuan bahwa "lingkungan" lebih penting daripada "model".
4. File AGENT.md / CLAUDE.md
Produk harness paling umum.
File markdown tersebar di seluruh codebase. Setiap sesi agent dimulai dengan membacanya—seperti onboarding karyawan baru.
Isi apa?
OpenAI menyebutnya AGENT.md. Anthropic menyebutnya CLAUDE.md. Cursor menggunakan .cursorrules.
Nama berbeda, prinsip sama. Satu file untuk setiap modul utama. Diperbarui sesuai perkembangan proyek.
Tanpa ini: agent setiap sesi seperti menyalakan mesin dalam gelap. Dengan ini: agent setiap sesi membawa informasi dan langsung bekerja.
5. Daftar Fitur JSON (Pelacak Kemajuan)
Ketika agent melintasi beberapa sesi untuk membangun sebuah aplikasi, setiap window konteksnya kosong. Bagaimana dia tahu apa yang sudah selesai?
Sebuah file JSON.
Setiap entri berisi:
Sesi agent dimulai dengan membacanya—memprioritaskan fail tertinggi → implementasi → tandai pass → commit → ulangi.
Mengapa JSON bukan Markdown?
Anthropic menemukan: kemungkinan agent menimpa JSON lebih rendah daripada Markdown.
Detail kecil, tapi sangat penting dalam skenario berjalan otomatis selama 6 jam.
6. Rutinitas Inisialisasi Session
Setiap sesi dimulai dengan cara yang sama. Setiap kali.
7 langkah inisialisasi Anthropic:
Tanpa ini: agent 20 menit pertama hanya memahami status saat ini, setiap sesi mengulang dari awal. Dengan ini: agent langsung bekerja dengan informasi yang sudah ada.
7. Kontrak Sprint
Sebelum menulis satu baris kode—dua agent terlebih dahulu bernegosiasi.
Generator agent mengusulkan:
Evaluator agent meninjau:
Jika keduanya setuju, baru mulai implementasi.
Ini adalah review desain. Hanya saja keduanya AI.
Mengapa Penting
Dalam satu putaran, jika agent merencanakan dan melaksanakan secara bersamaan, hasilnya tidak dapat diandalkan. "Perencanaan"—meskipun dilakukan AI—akan sangat meningkatkan kualitas output.
8. Template Tugas Terstruktur
Sebelum menulis kode, harness terlebih dahulu menganalisis codebase yang sesungguhnya.
Hasilnya adalah peta dampak yang grounded:
Baru setelah itu implementasi dimulai.
Terdengar wajar. Tapi kebanyakan tim melewatkan langkah ini.
Agent menebak struktur file, menciptakan API yang tidak ada, membuat sesuatu yang tidak cocok dengan codebase.
Memiliki konteks grounded terlebih dahulu, lalu eksekusi → kualitas output jauh lebih baik.
9. Aliran OpenAI: Prioritas Lingkungan
Tim Codex OpenAI punya masalah aneh:
Dalam skala itu, Anda tidak mungkin melakukan review kode baris demi baris. Jadi mereka tidak melakukannya.
Sebaliknya—mereka mendesain lingkungan sedemikian rupa sehingga agent dari awal mampu menghasilkan output yang "dapat direview".
Cara mereka
Filosofi: Desain lingkungan. Lalu biarkan agent berjalan.
Bukti
Aplikasi Sora Android. 4 insinyur. 28 hari. Peringkat #1 di Play Store. 99.9% crash-free.
Codex setiap minggu menangani 70% PR internal.
10. Aliran Anthropic: Memisahkan "Melakukan" dan "Mengulas"
Anthropic menghadapi masalah lain:
Ketika mereka meminta agent menilai outputnya sendiri, agen akan dengan percaya diri memuji karya sendiri—meskipun dari sudut pandang manusia, kualitasnya jelas biasa saja.
Self-assessment tidak cukup. Agent adalah siswa dan guru sekaligus, lalu memberi nilai A semua.
Solusi mereka: 3 agen khusus
| Agen | | --- | | Planner | Mengubah prompt 2 kalimat menjadi spesifikasi produk lengkap | | Generator | Implementasi satu sprint sekaligus | | Evaluator | Menggunakan otomatisasi browser untuk pengujian, berperilaku seperti pengguna nyata |
Wawasan: Membuat "Evaluator independen" menjadi lebih cerewet, lebih mudah daripada membuat generator cerewet terhadap karya sendiri.
Hasil (Uji A/B)
| Pengaturan | | --- | Biaya | Waktu | Hasil | | --- | --- | --- | --- | | Agen tunggal (tanpa harness) | $9 | 20 menit | Aplikasi rusak | | Harness lengkap | $200 | 6 jam | Software yang bisa berjalan + UI canggih |
11. Aliran ThoughtWorks: Kerangka 2×2
ThoughtWorks mendekati dari sudut berbeda—bukan membuat produk, tetapi melihat 50+ tim engineering gagal di tempat yang sama.
Wawasan mereka: Mengklasifikasikan setiap kendali harness dengan dua sumbu
Sumbu 1: Kapan berfungsi?
Sumbu 2: Bagaimana berfungsi?
Matriks 2×2
| | | --- | | Feedforward (Petunjuk) | | Feedback (Sensor) | | --- | --- | --- | | Computational | sistem tipe, linter, aturan arsitektur | test suite, coverage, mutation test | | Inferensial | dokumen spesifikasi, deskripsi batasan | LLM review kode, verifikasi perilaku |
Feedforward dan feedback keduanya harus ada. Tidak bisa hanya salah satu.
12. Prinsip 1: Konteks Lebih Penting dari Instruksi
Berbagai tim, penemuan yang sama:
Mengaitkan ke file nyata → menyesuaikan kode dengan codebase. Dari deskripsi samar → jalur ilusi dan API yang dibuat-buat.
Sebelum agent mengetik, pastikan dia tahu di mana dia berada.
13. Prinsip 2: Perencanaan dan Eksekusi Harus Dipisah
Setiap aliran menyadari: Jika agent merencanakan dan melaksanakan dalam satu putaran, hasilnya tidak dapat diandalkan.
Perencanaan—meskipun dilakukan AI—harus dipisah dan hasilnya harus ditinjau sebelum mulai bekerja.
14. Prinsip 3: Umpan Balik Tidak Boleh Dikompromikan
Tiga aliran, tiga pendekatan berbeda untuk prinsip yang sama:
| Aliran | | --- | | Sumber Umpan Balik | | --- | --- | | OpenAI | Pengujian otomatis + CI | | Anthropic | LLM lain | | ThoughtWorks | Menggabungkan keduanya |
Mereka berbeda dalam "siapa yang memberi umpan balik". Tapi mereka sepakat: Anda membutuhkan umpan balik.
15. Prinsip 4: Lakukan Satu Hal Sekaligus
Membuat banyak agent sekaligus:
Rutinitas Anthropic: Baca progres → Pilih SATU fitur → Implementasi → Commit → Ulangi.
"Prinsip kemajuan bertahap" adalah ciri utama harness yang sukses.
16. Prinsip 5: Basis Kode Adalah Dokumen
Tak satu pun akan memelihara pengetahuan terpisah untuk agent. Repo adalah satu-satunya kebenaran.
Jika sebuah kebijakan, batasan, keputusan arsitektur tidak ada di codebase → agent tidak akan tahu.
Implikasi Praktis
17. Kegagalan Harness (Harness Decay) Benar-Benar Ada
Ketika Anthropic upgrade dari Opus 4.5 ke Opus 4.6—Pembongkaran sprint (yang sebelumnya wajib) berubah menjadi beban berat.
Kemampuan perencanaan model meningkat, membuat bagian itu menjadi berlebihan.
Pada bulan Maret, komponen harness yang masih menanggung beban, pada bulan April sudah menjadi overhead.
Lalu saat Opus 4.7 dirilis—model mulai memverifikasi output sendiri, tugas agen Evaluator menyusut lagi.
Inilah Kegagalan Harness
| Versi Model | | --- | Status Harness | | --- | --- | | Opus 4.5 | Pembongkaran sprint + evaluasi tiap sprint | | Opus 4.6 | Tanpa pembongkaran sprint + evaluasi tunggal (hemat 38% biaya) | | Opus 4.7 | Model memverifikasi sendiri → peran evaluator menyusut lagi |
18. Dibangun untuk Dihapus (Build to Delete)
Saran Philipp Schmid: "Build to delete."
Saat merancang setiap komponen harness, rancang agar bisa dihapus.
Uji secara berkala setiap komponen—matikan, lihat apakah kualitas output menurun. Tidak menurun → hapus.
| Tim | | --- | Refaktor dalam 6 bulan | | --- | --- | | Manus | Refaktor harness 5 kali | | LangChain | Refaktor 3 kali dalam 1 tahun | | Vercel | Hapus 80% tool → performa membaik |
Ini bukan tanda proyek buruk. Ini adalah konsekuensi alami dari "membangun di atas model yang cepat berkembang".
19. Realitas Biaya
Angka jujur dari A/B test Anthropic:
| Pengaturan | | --- | Biaya | Waktu | Hasil | | --- | --- | --- | --- | | Agen tunggal (tanpa harness) | $9 | 20 menit | UI rusak, inti rusak | | Harness lengkap (Opus 4.5) | $200 | 6 jam | Perangkat lunak berjalan, UI canggih, fisika benar |
22 kali lipat biaya—beralih ke produk yang benar-benar bisa berjalan, bukan sekadar demo screenshot.
Apakah layak? Tergantung seberapa besar biaya kerusakan rilis terhadap tim Anda.
Tapi ini bagian yang jarang dibahas
Gabungan harness + model adalah evolusioner.
$200 harness, setelah upgrade model, jadi $124.
| Tren Garis | | --- | | Model lebih baik = harness lebih sederhana = biaya satu kali jalan lebih murah = output lebih cepat |
Ringkasan Utama
Apa itu harness
5 Produk harness
3 aliran
5 Prinsip Universal
Keanehan
Pemenang tahun 2026 bukanlah yang menulis kode terbaik. Mereka adalah orang yang merancang batasan terbaik—dan bersedia membuangnya saat tidak lagi menguntungkan.