Harness yang ramping, Skill yang gemuk: sumber sebenarnya dari produktivitas AI 100 kali lipat

MarsBitNews

2026-04-13 05:24:45

Judul asli: Thin Harness, Fat Skills
Penulis asli: Garry Tan
Diterjemahkan oleh: Peggy, BlockBeats

Penulis asli: BlockBeats

Sumber asli:

Dikutip dari: Mars Finance

Catatan editor: Ketika “model yang lebih kuat” menjadi jawaban default di industri, artikel ini memberikan penilaian yang berbeda: bukan model itu sendiri yang benar-benar memperbesar jarak produktivitas 10 kali, 100 kali, bahkan 1000 kali, melainkan seluruh sistem desain yang dibangun di sekitar model tersebut.

Penulis artikel ini, Garry Tan, saat ini menjabat Presiden sekaligus CEO Y Combinator, yang telah lama berkecimpung di ekosistem AI dan startup awal. Ia mengusulkan kerangka “fat skills + thin harness”, memecah aplikasi AI menjadi komponen-komponen kunci seperti keahlian, kerangka operasional, routing konteks, pembagian tugas, dan kompresi pengetahuan.

Dalam sistem ini, model tidak lagi menjadi seluruh kemampuan, melainkan hanya unit eksekusi dalam sistem; yang benar-benar menentukan kualitas output adalah bagaimana Anda mengatur konteks, mengkonsolidasikan proses, serta membatasi batas antara “penilaian” dan “perhitungan”.

Lebih penting lagi, metode ini tidak hanya sebatas konsep, tetapi telah teruji dalam skenario nyata: menghadapi ribuan pengusaha dengan tugas pengolahan data dan pencocokan, sistem melalui siklus “baca—konsolidasikan—penilaian—tulis kembali” mampu mencapai kemampuan yang mendekati analis manusia, dan secara terus-menerus mengoptimalkan diri tanpa perlu menulis ulang kode. Sistem “yang bisa belajar” ini mengubah AI dari alat sekali pakai menjadi infrastruktur dasar yang memiliki efek majemuk.

Dari situ, inti peringatan yang disampaikan artikel ini menjadi jelas: di era AI, jarak efisiensi tidak lagi bergantung pada apakah Anda menggunakan model paling canggih, tetapi pada apakah Anda membangun sistem yang mampu terus mengakumulasi kemampuan dan berevolusi secara otomatis.

Berikut adalah teks aslinya:

Steve Yegge berkata, orang yang menggunakan agen pemrograman AI, “efisiensi mereka 10 sampai 100 kali lipat dibandingkan insinyur yang hanya menggunakan Cursor dan alat obrolan untuk menulis kode, sekitar 1000 kali lipat dibandingkan insinyur Google tahun 2005.”

Ini bukan pernyataan berlebihan. Saya telah menyaksikan dan mengalaminya secara langsung. Tapi, ketika orang mendengar jarak seperti ini, mereka cenderung menyalahkan ke arah yang salah: model yang lebih kuat, Claude yang lebih pintar, parameter yang lebih banyak.

Pada kenyataannya, orang yang meningkatkan efisiensi 2 kali dan yang meningkatkan 100 kali menggunakan model yang sama. Perbedaannya bukan pada “kecerdasan”, melainkan pada “arsitektur”, dan arsitektur ini cukup sederhana untuk dituliskan di satu kartu.

Harness (kerangka kerja operasional) adalah produk itu sendiri.

Pada 31 Maret 2026, Anthropic secara tak terduga merilis kode sumber lengkap Claude Code ke npm—sebanyak 512.000 baris kode. Saya membacanya seluruhnya. Ini membuktikan apa yang selalu saya katakan di YC (Y Combinator): rahasia sejati bukan pada modelnya, melainkan pada “lapisan pembungkus model itu sendiri”.

Konteks repositori kode secara real-time, cache prompt, alat yang dirancang untuk tugas tertentu, mengompresi redundansi konteks sebanyak mungkin, memori percakapan yang terstruktur, sub-agen yang berjalan paralel—semua ini tidak membuat model menjadi lebih pintar. Tapi mereka mampu memberikan “konteks yang tepat” kepada model di “waktu yang tepat”, sekaligus menghindari informasi yang tidak relevan.

Lapisan “bungkus” ini disebut sebagai harness (kerangka kerja operasional). Dan pertanyaan utama yang harus diajukan oleh semua pembangun AI adalah: apa saja yang harus dimasukkan ke dalam harness, dan apa yang harus tetap di luar?

Jawaban yang sangat spesifik untuk pertanyaan ini adalah—saya menyebutnya: thin harness (kerangka kerja tipis), fat skills (keahlian tebal).

Lima definisi

Batasan tidak pernah terletak pada kecerdasan model. Model sebenarnya sudah tahu cara melakukan inferensi, mengintegrasikan informasi, dan menulis kode.

Mereka gagal karena mereka tidak memahami data Anda—skema Anda, konvensi Anda, bentuk masalah spesifik Anda. Dan kelima definisi berikut ini secara tepat dirancang untuk mengatasi masalah tersebut.

Skill file (berkas keahlian)

Skill file adalah dokumen markdown yang dapat digunakan kembali, yang mengajarkan model “cara melakukan sesuatu”. Perhatikan, ini bukan memberi tahu “apa yang harus dilakukan”—itu bagian yang disediakan pengguna. Skill file menyediakan prosesnya.

Kunci yang sering diabaikan adalah: skill file sebenarnya seperti satu panggilan metode. Ia bisa menerima parameter. Anda bisa memanggilnya dengan parameter berbeda. Alur yang sama, karena parameter yang berbeda, bisa menunjukkan kemampuan yang sangat berbeda.

Contohnya, ada sebuah skill bernama /investigate. Ia berisi tujuh langkah: menentukan ruang data, membangun garis waktu, melakukan diarization pada setiap dokumen, mengkonsolidasikan dan merangkum, melakukan argumentasi dari dua sisi, dan mengutip sumber. Ia menerima tiga parameter: TARGET, QUESTION, dan DATASET.

Jika diarahkan ke seorang ilmuwan keamanan dan 2,1 juta email bukti, ia akan berubah menjadi analis riset medis, menilai apakah seorang whistleblower mengalami penindasan.

Jika diarahkan ke sebuah perusahaan shell dan dokumen pelaporan FEC (Federal Election Commission) AS, ia akan menjadi penyelidik forensik hukum, melacak sumbangan politik yang dilakukan secara kolaboratif.

Ini tetap skill yang sama. Tujuh langkah yang sama. Berkas markdown yang sama. Deskripsi skill menggambarkan proses penilaian, dan yang benar-benar mengimplementasikannya di dunia nyata adalah parameter yang dimasukkan saat pemanggilan.

Ini bukan prompt engineering, melainkan desain perangkat lunak: hanya saja di sini menggunakan markdown sebagai bahasa pemrograman, dan kemampuan penilaian manusia sebagai lingkungan runtime. Bahkan, markdown lebih cocok untuk membungkus kemampuan daripada kode sumber yang kaku, karena ia menggambarkan proses, penilaian, dan konteks—yang semuanya adalah bahasa yang paling “dipahami” model.

Harness (kerangka kerja operasional)

Harness adalah lapisan program yang menjalankan LLM. Ia hanya melakukan empat hal: menjalankan model dalam loop, membaca dan menulis file Anda, mengelola konteks, dan menegakkan batasan keamanan.

Itu saja. Inilah yang disebut “thin” (tipis).

Sebaliknya, pola yang salah adalah: fat harness, thin skills.

Anda pasti pernah melihat ini: lebih dari 40 definisi alat, penjelasan yang memenuhi setengah jendela konteks; satu alat serba bisa yang harus melakukan MCP (multi-channel processing) bolak-balik selama 2 sampai 5 detik; atau membungkus setiap endpoint API REST sebagai alat terpisah. Hasilnya, penggunaan token membengkak tiga kali lipat, latensi tiga kali lipat, dan tingkat kegagalan juga tiga kali lipat.

Pendekatan yang benar-benar ideal adalah menggunakan alat yang dibuat khusus untuk tujuan tertentu, cepat, dan dengan fungsi terbatas.

Misalnya, sebuah CLI Playwright, setiap operasi browser hanya memakan waktu 100 milidetik; bukan sebuah MCP Chrome yang melakukan screenshot → find → click → wait → read selama 15 detik. Yang pertama 75 kali lebih cepat.

Perangkat lunak saat ini tidak lagi perlu “dihiasi secara berlebihan”. Yang perlu Anda lakukan adalah membangun apa yang benar-benar Anda perlukan, dan hanya itu.

Resolver (penyelesai)

Resolver, pada dasarnya, adalah sebuah tabel routing konteks. Ketika muncul jenis tugas X, prioritasnya adalah memuat dokumen Y. Skills memberi tahu model “bagaimana melakukan”; resolvers memberi tahu model “kapan harus memuat apa”.

Misalnya, seorang pengembang mengubah sebuah prompt. Tanpa resolver, dia mungkin langsung merilisnya. Dengan resolver, model akan terlebih dahulu membaca docs/EVALS.md. Di dokumen itu tertulis: jalankan suite evaluasi, bandingkan skor sebelum dan sesudah; jika akurasi turun lebih dari 2%, rollback dan periksa penyebabnya. Pengembang ini bahkan tidak tahu bahwa ada suite evaluasi. Resolver yang memuat konteks yang tepat di waktu yang tepat.

Claude Code memiliki resolver bawaan. Setiap skill memiliki field description, dan model secara otomatis mencocokkan niat pengguna dengan deskripsi skill tersebut. Anda bahkan tidak perlu mengingat apakah skill /ship ada—description itu sendiri adalah resolver.

Sejujurnya, sebelumnya saya punya CLAUDE.md yang panjangnya 20.000 baris. Semua keanehan, pola, dan pengalaman yang saya temui, saya masukkan ke dalamnya. Sangat berlebihan. Kualitas perhatian model menurun secara signifikan. Claude Code bahkan memaksa saya untuk menghapusnya.

Solusi akhir hanya sekitar 200 baris—hanya menyimpan beberapa pointer dokumen. Jika membutuhkan dokumen tertentu, resolver akan memuatnya di waktu yang tepat. Dengan begitu, 20.000 baris pengetahuan tetap bisa diakses kapan saja, tanpa mengganggu jendela konteks.

Latent dan deterministic (ruang laten dan deterministik)

Dalam sistem Anda, setiap langkah adalah salah satu dari dua kategori ini. Menggabungkan keduanya adalah kesalahan paling umum dalam desain agen.

· Latent space (ruang laten), adalah tempat di mana kecerdasan berada. Model di sini membaca, memahami, menilai, dan memutuskan. Di sini berurusan dengan: penilaian, penggabungan, pengenalan pola.

· Deterministic (deterministik), adalah tempat di mana kepercayaan terletak. Input yang sama selalu menghasilkan output yang sama. Query SQL, kode yang dikompilasi, operasi aritmatika, semuanya termasuk kategori ini.

Sebuah LLM bisa membantu Anda mengatur tempat duduk 8 orang dengan mempertimbangkan kepribadian dan hubungan sosial mereka. Tapi jika Anda memintanya mengatur tempat duduk untuk 800 orang, ia akan dengan serius mengarang sebuah daftar tempat duduk “yang tampaknya masuk akal, tapi sebenarnya sepenuhnya salah”. Karena itu bukan lagi masalah ruang laten, melainkan masalah optimisasi kombinatorial yang dimasukkan ke ruang laten secara paksa—sebuah masalah pengoptimalan kombinasi.

Sistem terburuk selalu salah menempatkan pekerjaan di kedua sisi garis ini. Sistem terbaik akan dengan tegas memisahkan keduanya.

Diarization (pengelompokan dokumen / pembuatan profil tema)

Langkah diarization ini adalah kunci nyata agar AI dapat memberikan nilai dalam pekerjaan pengetahuan nyata.

Ini berarti: model membaca semua materi terkait satu tema, lalu menulis sebuah gambaran terstruktur. Mengkonsolidasikan penilaian dari puluhan bahkan ratusan dokumen dalam satu halaman.

Ini bukan hasil dari query SQL. Ini juga bukan hasil dari pipeline RAG (Retrieval-Augmented Generation). Model harus benar-benar membaca, menyimpan informasi yang saling bertentangan secara bersamaan, memperhatikan apa yang berubah, dan mengintegrasikan semuanya menjadi sebuah intelligence yang terstruktur.

Ini adalah perbedaan antara query basis data dan laporan analis.

Kerangka ini

Kelima konsep ini dapat digabungkan menjadi sebuah arsitektur tiga lapis yang sangat sederhana.

· Lapisan atas adalah fat skills: proses yang ditulis dalam markdown, memuat penilaian, metodologi, dan pengetahuan domain. 90% nilainya ada di lapisan ini.
· Lapisan tengah adalah harness CLI tipis: sekitar 200 baris kode, input JSON, output teks, hanya membaca saja secara default.
· Lapisan paling bawah adalah sistem aplikasi Anda: QueryDB, ReadDoc, Search, Timeline—infrastruktur dasar yang bersifat deterministik.

Prinsip utamanya adalah berorientasi: dorong “kecerdasan” ke atas sebanyak mungkin ke skills; tekan “eksekusi” ke bawah ke alat deterministik; dan jaga harness tetap ringan.

Hasil dari pendekatan ini adalah: setiap kali kemampuan model meningkat, semua skill secara otomatis menjadi lebih kuat; dan sistem deterministik di bawahnya tetap stabil dan dapat diandalkan.

Sistem yang bisa belajar

Sekarang saya akan menunjukkan sebuah sistem nyata yang sedang kami bangun di YC, dan bagaimana kelima definisi ini bekerja bersama.

Juli 2026, Chase Center. Startup School diikuti oleh 6000 pendiri. Setiap orang memiliki bahan aplikasi yang terstruktur, jawaban kuisioner, transkrip percakapan 1:1 dengan mentor, serta sinyal terbuka: posting di X, commit di GitHub, catatan penggunaan Claude Code (yang menunjukkan kecepatan pengembangan mereka).

Pendekatan tradisional adalah: 15 orang tim proyek membaca aplikasi satu per satu, menilai secara intuitif, lalu memperbarui sebuah tabel.

Metode ini masih bisa berjalan saat skala 200 orang, tapi saat mencapai 6000 orang, metode ini benar-benar gagal. Tidak ada manusia yang mampu memuat begitu banyak gambaran sekaligus dalam pikiran, dan menyadari bahwa tiga kandidat terbaik untuk infrastruktur AI adalah: pendiri alat pengembangan di Lagos, pengusaha compliance di Singapura, dan pengembang alat CLI di Brooklyn—yang dalam berbagai percakapan 1:1 menggambarkan masalah yang sama dengan cara berbeda.

Model bisa melakukannya. Caranya sebagai berikut:

Enrichment (peningkatan informasi)

Ada sebuah skill bernama /enrich-founder, yang akan menarik semua sumber data, melakukan diarization, dan menandai “perbedaan antara apa yang dikatakan pendiri dan apa yang sebenarnya mereka lakukan”.

Sistem deterministik di bawahnya bertanggung jawab atas: query SQL, data GitHub, pengujian URL demo, pengambilan sinyal sosial, query CrustData, dan lain-lain. Sebuah tugas terjadwal berjalan sekali sehari. Gambaran 6000 pendiri selalu terbaru.

Output diarization mampu menangkap informasi yang sama sekali tidak bisa ditemukan melalui pencarian kata kunci:

Perbedaan “pernyataan vs tindakan nyata” ini harus membaca riwayat commit GitHub, bahan aplikasi, dan rekaman percakapan secara bersamaan, lalu mengintegrasikannya dalam pikiran. Tidak ada embedding similarity search yang bisa melakukan ini, apalagi filter kata kunci. Model harus membaca secara lengkap, lalu membuat penilaian. (Ini adalah tugas yang seharusnya ada di ruang laten!)

Matching (pencocokan)

Di sinilah “skill = panggilan metode” menunjukkan kekuatannya.

Satu skill pencocokan yang sama, dipanggil tiga kali, bisa menghasilkan strategi yang benar-benar berbeda:

/match-breakout: mengelompokkan 1200 orang berdasarkan bidang, setiap grup 30 orang (embedding + alokasi deterministik)
/match-lunch: mengelompokkan 600 orang, mencocokkan secara acak lintas bidang, setiap meja 8 orang tanpa pengulangan—dengan model menghasilkan tema, lalu algoritma deterministik mengatur tempat duduk
/match-live: mencocokkan peserta secara real-time, berdasarkan embedding tetangga terdekat, dalam 200 ms, satu lawan satu, dan menghindari orang yang sudah pernah ditemui

Model juga mampu membuat penilaian yang tidak bisa dilakukan algoritma clustering tradisional:

“Santos dan Oram keduanya termasuk infrastruktur AI, tapi bukan kompetitor—Santos fokus pada cost attribution, Oram pada orchestration. Harus ditempatkan dalam satu grup.”
“Kim menulis aplikasi sebagai alat pengembang, tapi percakapan 1:1 menunjukkan dia sedang mengerjakan otomatisasi kepatuhan SOC2. Harus diklasifikasi ulang ke FinTech / RegTech.”

Pengklasifikasian ulang ini tidak bisa ditangkap oleh embedding saja. Model harus membaca seluruh gambaran.

Learning loop (siklus pembelajaran)

Setelah kegiatan selesai, sebuah skill /improve akan membaca hasil survei NPS, melakukan diarization terhadap feedback yang “lumayan”, bukan yang buruk, tetapi yang “hampir baik”, dan mengekstrak pola.

Lalu, ia akan mengusulkan aturan baru dan menulisnya kembali ke skill:

Jika peserta menyebut “infrastruktur AI”, tetapi kode mereka lebih dari 80% adalah modul penagihan: → diklasifikasi sebagai FinTech, bukan AI Infra
Jika dua orang dalam satu grup sudah saling mengenal: → mengurangi bobot pencocokan, prioritas memperkenalkan hubungan baru

Aturan ini akan disimpan dalam berkas skill. Saat dijalankan berikutnya, otomatis berlaku. Skill “mengubah dirinya sendiri”. Pada kegiatan Juli, skor “lumayan” adalah 12%; di kegiatan berikutnya turun menjadi 4%.

Skill file belajar apa arti “lumayan”, dan sistem menjadi lebih baik tanpa perlu penulisan ulang kode.

Model ini dapat diterapkan ke bidang apa pun:

Retrieval → Read → diarize → count → integrate

Lalu: riset → survei → diarize → rewrite skill

Kalau Anda bertanya apa siklus paling berharga di 2026, jawabannya adalah rangkaian ini. Ia dapat digunakan di hampir semua skenario pekerjaan pengetahuan.

Skill adalah peningkatan permanen

Baru-baru ini saya memposting di X sebuah instruksi untuk OpenClaw, yang mendapat reaksi lebih besar dari perkiraan:

Konten ini mendapatkan lebih dari seribu like dan dua ribu bookmark. Banyak orang mengira ini adalah trik prompt engineering.

Padahal, ini adalah implementasi dari arsitektur yang sudah dijelaskan sebelumnya. Setiap skill yang Anda tulis adalah peningkatan permanen untuk sistem. Ia tidak akan menurun, tidak akan lupa. Ia akan berjalan otomatis di tengah malam. Dan saat model generasi berikutnya dirilis, semua skill akan langsung menjadi lebih kuat—kemampuan penilaian di ruang laten meningkat, sementara bagian deterministik tetap stabil dan andal.

Inilah sumber dari efisiensi 100 kali lipat yang disebut Yegge.

Bukan karena model yang lebih pintar, melainkan karena: fat skills, thin harness, dan disiplin dalam mengkonsolidasikan segala sesuatu menjadi kemampuan.

Sistem ini akan tumbuh secara majemuk. Dibangun sekali, berjalan jangka panjang.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateFounderDrHan13thAnniversaryLetter
23.71K Popularitas
#
CryptoMarketsDipSlightly
162.25K Popularitas
#
IsraelStrikesIranBTCPlunges
28.9K Popularitas
#
USBlocksStraitofHormuz
699.21K Popularitas
#
AaveDAOApproves$25MGrant
1.8M Popularitas

Sematkan

peta situs

Harness yang ramping, Skill yang gemuk: sumber sebenarnya dari produktivitas AI 100 kali lipat

Topik Trending

GateFounderDrHan13thAnniversaryLetter

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

USBlocksStraitofHormuz

AaveDAOApproves$25MGrant

Sematkan