Harness melampaui batas: Di luar model, tanah penerapan menjadi "standar utama" dalam pemilihan AI perusahaan

Artikel|Pendiri Industri Dou Dou

Editor|Pi Ye

Dari tren saat ini, Harness lebih seperti “lapisan antara yang tidak dapat dibalik”.

Sama seperti sistem operasi terhadap perangkat keras, dan basis data terhadap aplikasi, Harness sedang menjadi lapisan “antarmuka” antara AI dan dunia nyata. Ketika AI bergeser dari “bisa berbicara” menjadi “bisa bekerja”, Harness adalah tali kekang yang menentukan seberapa jauh ia bisa berlari.

Pada tahun 2026, pasar AI skala perusahaan global sudah diam-diam memasuki “perairan dalam”.

Dalam tiga tahun terakhir, kemampuan model skala besar melompat dengan kecepatan yang nyaris tidak terkendali—dari asisten percakapan hingga pembuatan kode, dari penciptaan konten hingga penalaran yang kompleks—batas “kecerdasan” model itu sendiri terus diperbarui. Kini, model dasar umum sudah menjadi infrastruktur dasar seperti listrik dan air ledeng.

Namun, ini tidak membuat perusahaan merasa ringan. Realitas yang muncul justru sangat kontras dengan kemajuan teknologi: semakin kuat AI, perusahaan justru semakin kesulitan menggunakan, bahkan semakin tidak berani menggunakannya. Laporan “Kondisi AI Perusahaan pada 2026” dari Deloitte menunjukkan bahwa meskipun 80% perusahaan yang disurvei mengaku sudah menerapkan alat AI, hanya 15% yang benar-benar mampu mewujudkan penerapan skala dan menghasilkan nilai komersial yang signifikan.

Tepat ketika industri mulai bimbang, arah angin berubah.

Selama Januari 2026, tim insinyur OpenAl yang pada awalnya hanya beranggotakan 3 orang—dimulai dari repositori Git yang kosong—dalam 5 bulan berhasil membangun produk Beta lengkap yang berisi lebih dari 1 juta baris kode. Sepanjang proses itu, tidak ada satu pun baris kode yang diketik secara manual oleh manusia. Perlu dicatat bahwa tim ini kemudian diperluas menjadi 7 orang; selama periode tersebut, mereka menggabungkan sekitar 1500 pull request, dengan rata-rata setiap insinyur dapat mendorong 3,5 PR per hari. Seiring proses yang makin matang, efisiensi produksi terus meningkat. OpenAI memperkirakan cara ini menghemat waktu sekitar 10 kali dibanding pengembangan kode tulisan tangan secara tradisional.

Ini bukan sekadar peningkatan efisiensi, melainkan sebuah pengguncangan besar terhadap definisi “rekayasa perangkat lunak”. OpenAI menamai metodologi baru ini: “Engineering yang Mengendalikan” (Harness Engineering).

Perubahan ini cepat memicu resonansi di kalangan komunitas teknologi teratas. Dari LangChain hingga OpenAI, lalu ke Anthropic, sekelompok pemain teknologi inti secara serentak menggeser fokus dari “kemampuan model” ke “rekayasa sistem”, dan secara bertahap menyatu pada rumus konsensus baru: Agent = Model + Harness.

Dalam konteks ini, beberapa pertanyaan ikut muncul: ketika semua pemasok papan atas mulai bertaruh pada Harness, apakah ia hanyalah “solusi transisi” sebelum model dasar menjadi matang, atau justru sedang menjadi langkah pertama untuk penerapan AI di perusahaan?

  1. Tidak cerdas, tidak dapat dikendalikan: industri mulai mencari “kekang” untuk Agent

Mengapa semua perusahaan papan atas bertaruh pada Harness?

Mari lihat dulu sekelompok data survei dari Gartner. Data menunjukkan bahwa dari proyek AI perusahaan global, hanya kurang dari 15% yang benar-benar mewujudkan penerapan bisnis skala. Sementara itu, “ketidakstabilan agen dalam tugas-tugas kompleks” ditetapkan oleh 78% kepala AI perusahaan sebagai hambatan terbesar pertama untuk penerapan.

Kegagalan penerapan ini berulang kali ditegaskan dalam umpan balik teknis dari perusahaan papan atas.

Microsoft terus terang menyatakan bahwa saat ini pengembangan Agent kekurangan mekanisme trace (pelacakan) yang efektif; begitu tugas gagal, pengembang hampir hanya bisa mengandalkan “tebakan” untuk melakukan debugging.

Anthropic, dalam dokumentasi teknisnya, mengungkapkan dua kekurangan mendalam: pertama, kecemasan konteks—model akan perlahan kehilangan keterpaduan ketika menangani tugas yang panjang, bahkan sampai menimbulkan perasaan “enggan bekerja” karena mendekati batas konteks; kedua, optimisme yang buta—model sangat tidak jago dalam penilaian kualitas diri, sehingga hasil keluarannya sering menunjukkan kepercayaan diri yang berlebihan.

Sementara itu, OpenAI juga mengeluarkan peringatan: di era ketika kolaborasi multi-Agent dan pemanggilan alat semakin sering terjadi, risiko keamanan seperti PromptInjection (sisipan prompt) dan kebocoran data pribadi sedang dibesarkan tanpa batas.

Jika masalah-masalah ini bertumpuk, akhirnya di sisi perusahaan muncul empat konsekuensi langsung: hasil tidak stabil, risiko tidak dapat dikendalikan, tidak bisa dimintai pertanggungjawaban atas masalah, dan ROI tidak dapat dibuktikan. Di balik itu sebenarnya bukan karena “modelnya kurang pintar”, melainkan karena perusahaan tidak memiliki “sistem operasi” yang dapat membuat AI terus berjalan, andal, dan dalam skala besar.

Jika menengok tiga tahun terakhir, bentuk AI telah mengalami perubahan yang mendasar. AI pada 2022 hingga 2024 lebih seperti robot tanya-jawab tingkat lanjut. Namun pada 2026, untuk pertama kalinya AI benar-benar memiliki kemampuan untuk bekerja secara berkelanjutan: ia dapat memecah tugas, memanggil alat, mengeksekusi alur lintas sistem, bahkan pada tingkat tertentu mengambil keputusan secara mandiri.

Ini adalah perubahan kualitatif, tetapi justru pada saat yang sama masalahnya terpapar lebih tuntas. AI tidak lagi seperti “hamster yang dikurung dalam kandang”, melainkan berubah menjadi “kuda liar” yang bisa berlari sepuasnya sendiri. Orang lain bisa menungganginya dan berlari ke mana pun; tetapi begitu perusahaan naik, sering kali langsung “patah kaki”.

Maka seluruh industri mulai menyadari realitas yang kejam: batas kemampuan AI tidak lagi ditentukan oleh model, melainkan oleh apakah “Anda mampu mengendalikannya”.

Pada Februari 2026, muncul titik balik penting. Dalam sebuah eksperimen tim LangChain, ditemukan bahwa peneliti menggunakan model yang sama (GPT-5.2-Codex). Tanpa mengubah parameter apa pun, hanya dengan mengoptimalkan Harness, nilai model tersebut pada pengujian Terminal Bench2.0 melonjak dari 52.8 menjadi 66.5, peringkatnya naik dari Top30 langsung ke Top5.

Dapat dilihat bahwa modelnya tidak berubah, tetapi kemampuannya mengalami lompatan.

Ini menjadi sinyal kuat: yang sebenarnya sangat kurang di industri bukanlah “AI yang lebih cerdas”, melainkan seperangkat sistem rekayasa yang bisa menjinakkan AI, membuatnya mendarat dengan mulus. Dan justru dalam konteks inilah Harness Engineering (Engineering yang Mengendalikan) diajukan secara resmi, menjadi “kekang” yang memungkinkan AI terus berjalan, andal, dan dalam skala besar—sebuah harapan baru untuk mendorong penerapan AI.

  1. Harness: fondasi sistem yang membuat AI perusahaan mendarat dengan stabil

Jika inti masalah AI sulit diterapkan adalah AI yang kehilangan kendali, maka yang sebenarnya ingin dilakukan Harness adalah mengubah sistem probabilistik menjadi sistem yang direkayasa.

Dari prinsip lapisan bawah, model skala besar pada dasarnya adalah “pembuat distribusi probabilitas”, bukan sistem deterministik. Sebuah penelitian tahun 2026 menunjukkan bahwa bahkan untuk Agent yang tampil baik pada benchmark ber-nilai tinggi, dalam eksekusi berulang dengan tugas yang sama, tingkat keberhasilan turun dari 60% menjadi 25%, jauh di bawah kebutuhan sistem kelas perusahaan. Ini berarti “ketepatan rata-rata” model, dalam skenario perusahaan, setara dengan “tidak tersedia”.

Dari sini muncul masalah inti pertama: perusahaan tidak dapat menilai mengapa AI salah.

Agent tradisional berjalan seperti kotak hitam; ketika terjadi error, tidak diketahui apakah itu kesalahan penalaran model, kegagalan pada pemanggilan alat, atau timeout pada sistem eksternal. Dalam sistem perusahaan, “tidak dapat dijelaskan” itu sendiri tidak dapat diterima. Karena kurangnya observabilitas, banyak proyek AI macet di tahap debugging dan tidak bisa maju. Secara umum, industri menganggap “ketiadaan pelacakan” sebagai hambatan inti untuk masuk ke lingkungan produksi. Karena itu, langkah pertama Harness bukanlah mengoptimalkan model, melainkan membuat proses menjadi terlihat.

Ia dapat merekam setiap jejak pemikiran Agent, parameter pemanggilan alat, serta konteks; lalu ketika mendeteksi “lingkaran logika yang buntu” atau “jalur anomali”, ia memicu rollback atau intervensi manusia, mengubah perilaku kotak hitam menjadi sistem yang bisa didebug.

Namun masalahnya tidak hanya “tidak terlihat”; lebih serius lagi, bahkan ketika terlihat, sistemnya akan makin kacau. Dalam tugas yang panjang, model akan mengalami “kecemasan konteks”. Semakin panjang tugas, semakin tidak stabil sistem; dan model mudah menghasilkan perintah ilegal atau menyebabkan kebocoran data.

Artinya, kehilangan kendali bukan kejadian sesekali, melainkan diperbesar secara eksponensial seiring kompleksitas meningkat. Maka fungsi kedua Harness adalah membatasi “beban kognitif” model. Ia tidak memasukkan semua data sekaligus ke model, melainkan berdasarkan node tugas, memberi makan dengan “pengetahuan yang diperlukan” secara tepat, menjaga kejernihan model.

Namun, bahkan setelah mengendalikan panjang proses, masih ada masalah yang lebih tersembunyi: model tidak tahu bahwa ia salah.

Dalam praktiknya, banyak proyek AI perusahaan yang tidak berani go-live karena penilaian diri model sering “optimis buta”, sehingga perusahaan tidak berani langsung mengirim hasil keluaran AI kepada pelanggan.

Karena itu, kemampuan lapisan ketiga Harness adalah memanggil model lain yang khusus bertugas untuk “audit” guna melakukan koreksi atas output Agent utama. Dari “sistem penilaian mandiri” menjadi “sistem penilaian eksternal”, sehingga membangun kredibilitas hasil.

Namun, sampai di sini masalahnya belum selesai.

Perlu diketahui bahwa ketika AI benar-benar masuk ke lingkungan perusahaan, ia tidak lagi menghadapi satu tugas tunggal, melainkan sistem yang kompleks, misalnya ERP, CRM, data warehouse, platform low-code, API gateway, dan sebagainya.

Dan AI perlu mengaktifkan ratusan antarmuka seperti ERP, CRM, platform low-code, dll. Pemanggilan Function saja dengan mudah membuat sistem runtuh. Data menunjukkan bahwa lebih dari 60% kegagalan AI berasal dari kegagalan kontrol lingkup tugas dan masalah data; pada dasarnya semuanya adalah “kompleksitas sistem melampaui kapasitas yang dapat ditanggung”. Artinya, semua masalah di depan—kotak hitam, kehilangan kendali, halusinasi—akan makin diperbesar di lapisan “integrasi sistem”.

Karena itu, fungsi lapisan terakhir Harness adalah bertindak sebagai adaptor serbaguna, mengubah antarmuka data internal perusahaan yang usang dan non-standar menjadi protokol terstandar yang dapat dibaca AI, sehingga perusahaan dapat mengelola secara terpadu jalur pemanggilan, izin, dan status.

Secara keseluruhan, Harness tidak memecahkan masalah apakah AI “bisa atau tidak bisa” melakukan sesuatu, melainkan membuat AI dapat dirancang, dapat dikendalikan, dapat dinilai, dan bisa dimasukkan ke dalam proses bisnis nyata. Dengan membungkus kemampuan AI yang semula bertumpu pada keluaran probabilistik ke dalam proses industri yang terstandar, dapat diprediksi, dan dapat diaudit, AI benar-benar dapat diterapkan dalam bisnis perusahaan.

  1. Era setelah Agent: penerapan AI tidak lagi sekadar masalah teknis

Apakah Harness benar akan menjadi inti baru bagi apakah Agent bisa diterapkan?

Sebenarnya, di industri, sudah ada perdebatan sejak lama mengenai kesimpulan ini.

Kalangan model besar yang diwakili oleh OpenAI dan Anthropic berpendapat bahwa seiring kemampuan penalaran model dan kemampuan konteks panjang terus meningkat, Agent di masa depan akan semakin “konsisten dengan dirinya sendiri”; Harness hanya akan menjadi “perancah” tahap awal.

Dengan kata lain, kelompok model besar percaya bahwa selama kudanya cukup kuat, ia sendiri bisa menarik beban dan menjalankan pekerjaan. Sekarang kuda masih perlu kereta dan tali kekang yang rumit, karena kudanya belum cukup cerdas. Nanti ketika kuda berevolusi menjadi “sang dewa-kuda” (神马), semua kerangka kayu dan tali yang rumit itu hanya beban tambahan yang akan menghambat kuda untuk berperan maksimal.

Namun, kubu lain datang dari sisi yang lebih berfokus pada rekayasa dan penerapan.

Pendirian LangChain, Harrison Chase, secara terbuka menekankan: peningkatan performa sering kali berasal dari “optimasi sistem eksternal, bukan upgrade model”. Satya Nadella dari Microsoft juga berkali-kali menyebut bahwa agar AI masuk ke sistem inti perusahaan, AI harus memiliki “observabilitas, kontrol, dan batas keamanan”.

Penilaian di balik itu adalah bahwa sekalipun model makin kuat, ia tetap hanya “unit kemampuan”, bukan “sistem produksi”. Kuda yang kuat pun tetap hanya tenaga hewan; tanpa gerobak dan roda, barang tidak punya tempat untuk diletakkan. Tanpa tali kekang, kuda akan berlari sembarangan. Dalam perusahaan, “barang” adalah “data bisnis”, dan tujuannya adalah “menyelesaikan tugas”. Tanpa struktur rekayasa yang presisi ini, AI tidak akan pernah bisa mendarat dengan aman dan akurat dalam penerapan nyata.

Dengan kata lain, model menentukan “apa yang bisa dilakukan”, tetapi Harness menentukan “apakah bisa dilakukan secara stabil”.

Dari sudut pandang ini, perbedaan kedua kubu sesungguhnya merujuk pada dua masalah yang berbeda: satu menjawab “di mana batas kemampuan AI”, dan yang lain menjawab “apakah AI bisa digunakan”.

Namun sejauh ini, orang-orang tidak lagi memperdebatkan siapa yang akan menggantikan siapa, melainkan mulai memainkan “serangan gabungan”.

Di satu sisi, vendor model mulai secara aktif memperluas diri ke lapisan Harness. OpenAI merilis Agents SDK dan Codex, dengan kemampuan model langsung tertanam dalam lingkungan eksekusi. Anthropic merilis MCP dan Agent Skills, dengan manajemen konteks dan kemampuan alur yang diproduktkan sebagai produk. Ini menunjukkan satu tren: bahkan bagi “kubu model” yang paling teguh sekalipun, mereka mulai melengkapi kemampuan lapisan sistem, karena hanya mengandalkan model tidak lagi cukup untuk menjalankan tugas kompleks.

Di sisi lain, framework rekayasa juga terus “menikmati bonus” dari model yang makin kuat. Bagaimanapun, framework seperti LangChain, AutoGen, dan CrewAI pada dasarnya masih bergantung pada model yang lebih kuat untuk meningkatkan batas kemampuan.

Maka, suatu lanskap yang saling silang dan saling melengkapi secara bertahap terbentuk. Vendor model mulai membuat sistem; vendor sistem bergantung pada model—dan keduanya saling merembes ke batas kemampuan pihak lainnya.

Kedekatan ini juga memunculkan bentuk industri yang lebih tersubspesialisasi. Ada perusahaan yang fokus pada “lapisan penerjemahan”, mengubah data internal perusahaan yang kompleks dan tidak terstruktur (PDF, Excel, database) menjadi konteks yang dapat dipahami oleh model. Ada juga perusahaan yang membuat “Harness yang spesifik industri”, misalnya pada skenario seperti hukum dan keuangan: alur tugas dibuat menjadi template, pengguna hanya perlu memasukkan materi, dan sistem akan otomatis menjalankan analisis. Lalu ada pula jenis yang sedang membangun kolaborasi multi-model, menjadikan Harness sebagai “komandan” yang menjadwalkan model berbeda sesuai jenis tugas—misalnya GPT bertanggung jawab menghasilkan konten, Claude bertanggung jawab mengerjakan kode, dan model lokal memproses data sensitif.

Kesamaan dari berbagai bentuk ini adalah bahwa mereka tidak lagi menganggap model sebagai “produk”. Namun jika dilihat lebih dalam, perdebatan ini juga memiliki nuansa “sikap” yang jelas. Perusahaan model lebih menekankan pentingnya model karena itu aset intinya; perusahaan framework menekankan Harness karena itu nilai mereka; sementara pihak perusahaan lebih fokus pada “data dan alur” karena situlah faktor yang akhirnya menentukan ROI.

Dengan kata lain, ini bukan hanya perdebatan jalur teknis, melainkan juga proyeksi kepentingan bisnis. Sampai tingkat tertentu, setiap pihak sedang memperkuat lapisan yang paling menguntungkan bagi mereka sendiri.

Maka kembali ke pertanyaan awal: Harness adalah solusi transisi, atau inti baru?

Berdasarkan tren saat ini, ia lebih seperti “lapisan antara yang tidak dapat dibalik”. Sama seperti sistem operasi terhadap perangkat keras dan basis data terhadap aplikasi, Harness sedang menjadi lapisan “antarmuka” antara AI dan dunia nyata. Ketika AI bergeser dari “bisa berbicara” menjadi “bisa bekerja”, Harness adalah tali kekang yang menentukan seberapa jauh ia bisa berlari.

Arus informasi yang melimpah, interpretasi yang akurat, semuanya ada di aplikasi Sina Finance

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan