Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
CFD
Derivatif CFD Saham AS
Saham AS
Akses saham AS dan ETF yang nyata
Saham HK
Perdagangkan saham berkualitas yang terdaftar di Hong Kong
Saham Futures
Leverage tinggi, perdagangan 24/7
Tokenized Stocks
Didukung oleh aset saham nyata
IPO Access
Buka akses penuh ke IPO saham global
GUSD
Mint GUSD untuk Imbal Hasil Treasury RWA
Aktivitas Saham
Perdagangkan Saham Populer dan Dapatkan Airdrop yang Melimpah
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
Siapa yang paling pandai menggunakan Claude Code? Jawabannya mungkin bukan programmer
Judul asli: Agentic coding and persistent returns to expertise
Penulis asli: Anthropoic
Diterjemahkan oleh: Peggy
Penulis asli artikel: RhythmBlockBeats
Sumber asli:
Reproduksi: Mars Finance
Catatan editor: Laporan ini didasarkan pada sekitar 400.000 sesi Claude Code, membahas bagaimana alat pemrograman AI sedang mengubah hubungan antara manusia dan kode.
Temuan inti dari artikel ini adalah: Dalam pemrograman agen cerdas, manusia sebagian besar menentukan "apa yang dilakukan", sementara Claude bertanggung jawab atas "bagaimana melakukannya". Pengguna memikul sebagian besar keputusan perencanaan, sedangkan Claude menangani sebagian besar eksekusi. Dengan kata lain, AI sedang mengambil alih proses pembuatan kode, pengeditan file, menjalankan perintah, debugging, dan tahap implementasi lainnya, tetapi penetapan tujuan dan penilaian hasil tetap bergantung pada manusia.
Lebih penting lagi, efektivitas penggunaan Claude Code tidak hanya bergantung pada apakah pengguna adalah programmer. Laporan menunjukkan bahwa dalam tugas menghasilkan kode, pengguna dari profesi non-teknis seperti hukum, keuangan, manajemen, dan penelitian ilmiah sudah mendekati tingkat keberhasilan insinyur perangkat lunak. Yang benar-benar mempengaruhi hasil adalah apakah pengguna memahami masalah yang ingin diselesaikan.
Ini berarti, pemrograman AI menurunkan hambatan implementasi, bukan hambatan penilaian. Di masa depan, orang yang memahami bisnis, memahami konteks, mampu mengajukan kebutuhan secara jelas dan menilai hasilnya, mungkin akan lebih mampu memanfaatkan AI daripada mereka yang hanya mampu menulis kode. AI tidak secara otomatis menggantikan pengetahuan domain, malah akan memperbesar nilai dari pengetahuan domain tersebut.
Berikut adalah teks asli:
Temuan utama
Berdasarkan penelitian sebelumnya, kami mengusulkan sebuah kerangka kerja untuk mempelajari pemrograman agen interaktif. Kerangka ini didasarkan pada analisis perlindungan privasi dari sekitar 400.000 sesi Claude Code antara Oktober 2025 dan April 2026, untuk menilai komposisi tugas, cara kolaborasi manusia dan AI, serta tingkat keberhasilan tugas.
Dalam satu sesi tipikal, manusia bertanggung jawab atas sebagian besar keputusan perencanaan, yaitu menentukan "apa yang harus dilakukan"; Claude bertanggung jawab atas sebagian besar keputusan eksekusi, yaitu menentukan "bagaimana menyelesaikannya". Semakin kuat pengetahuan profesional pengguna di bidang tertentu, semakin besar pula volume pekerjaan yang dipicu oleh setiap instruksi Claude. Dalam tugas pengkodean, tingkat keberhasilan rata-rata dari berbagai kelompok profesi utama—yaitu apakah mereka menyelesaikan apa yang awalnya ingin dilakukan pengguna, dan memiliki bukti verifikasi seperti pengujian dan pengiriman kode—hampir setara dengan insinyur perangkat lunak.
Semakin tinggi kemampuan profesional pengguna, semakin besar kemungkinan sesi berakhir dengan keberhasilan. Namun, perbedaan antara pengguna tingkat menengah dan ahli tidak terlalu besar. Dalam tujuh bulan pengamatan kami, proporsi sesi debugging hampir berkurang setengahnya, dan cara penggunaannya beralih ke penggunaan agen yang lebih end-to-end: menyebarkan dan menjalankan kode, menganalisis data, serta menulis dokumen non-kode.
Dalam periode ini, nilai dari tugas-tugas tipikal hampir meningkat di semua jenis pekerjaan. Kami memperkirakan nilai tugas ini dengan membandingkan dengan data lowongan pekerjaan freelance, dan hasilnya menunjukkan kenaikan rata-rata sekitar 25%.
Pendahuluan
Pemrograman agen sedang berkembang pesat. Sejak akhir 2025, proporsi aktivitas agen pemrograman dalam proyek GitHub telah berlipat ganda, dan pengguna Claude Code kini rata-rata menggunakan alat ini selama 20 jam per minggu. Apakah orang tanpa pengalaman pemrograman formal dapat berhasil mengarahkan agen untuk menyelesaikan pekerjaan teknis yang kompleks? Bagaimana adopsi cepat dan peningkatan kemampuan alat ini akan mempengaruhi pekerjaan berbasis pengetahuan yang lebih luas? Kami belum dapat memberikan jawaban lengkap, tetapi data penggunaan Claude Code menunjukkan beberapa sinyal awal.
Laporan ini didasarkan pada analisis perlindungan privasi dari sekitar 235.000 pengguna dan sekitar 400.000 sesi interaktif selama periode Oktober 2025 hingga April 2026, menyediakan bukti tentang cara penggunaan Claude Code secara nyata. Ini melanjutkan penelitian sebelumnya tentang indikator otonomi dalam sesi Claude Code dan bagaimana Claude Code mengubah cara kerja internal di Anthropic. Artikel ini akan memperkenalkan sebuah kerangka untuk mendeskripsikan penggunaan asisten AI interaktif: apa yang dilakukan orang, siapa yang melakukannya, dan apakah pekerjaan tersebut berhasil. Kami fokus pada penggunaan Claude Code melalui antarmuka baris perintah (CLI), Claude.ai, atau aplikasi desktop Claude Code. Dengan melacak bagaimana penggunaan pemrograman agen berubah seiring peningkatan kemampuan model, kita dapat memahami dampaknya terhadap profesional pemrograman dan pasar tenaga kerja pekerja berbasis pengetahuan.
Apa yang terjadi di Claude Code mungkin menjadi indikator masa depan pekerjaan berbasis pengetahuan: agen akan semakin menyatu ke dalam pekerjaan non-pemrograman. Kami menemukan bahwa Claude sedang menangani tugas yang lebih kompleks dan bernilai lebih tinggi. Pada saat yang sama, ada pembagian kerja yang jelas dalam pemrograman agen: manusia menentukan apa yang akan dibangun, agen menentukan bagaimana membangunnya.
Kami juga menemukan bukti bahwa yang benar-benar memperbesar efektivitas alat adalah pengetahuan domain, bukan keahlian pemrograman. Terutama, para ahli domain lebih mudah berhasil dan lebih cepat pulih dari kesalahan atau kesalahpahaman. Namun, perbedaan antara pengguna tingkat menengah dan ahli tidak terlalu besar. Ini menunjukkan bahwa selama seseorang cukup mahir di bidang tertentu, mereka hampir dapat menggunakan alat ini secara efektif seperti seorang pakar mendalam.
Temuan ini memungkinkan kami mengamati secara awal kemungkinan perubahan di pasar tenaga kerja. Dalam data kami, keberhasilan tergantung pada apakah orang memahami masalah yang ingin diselesaikan, bukan apakah mereka memiliki pelatihan pemrograman. Jika pola ini berlaku secara luas, itu berarti bahwa meskipun alat pemrograman agen mungkin menyerap sebagian pekerjaan yang berorientasi pada implementasi, mereka juga memberi insentif kepada orang yang benar-benar memahami masalah yang mereka hadapi. Pemrograman agen bukan pengganti pengetahuan domain. Sebaliknya, semakin banyak pemahaman yang dimiliki pekerja tentang bidang tertentu, semakin banyak pekerjaan berkualitas tinggi yang dapat mereka lakukan dengan bantuan AI.
Pembagian kerja
Apa yang dilakukan orang dengan Claude Code
Untuk memahami bagaimana orang menggunakan Claude Code, kami mengklasifikasikan setiap sesi ke dalam salah satu dari sembilan mode kerja, yaitu aktivitas tunggal yang paling menggambarkan tujuan sesi tersebut. Empat mode langsung terkait dengan penulisan atau pemeliharaan kode: membangun sesuatu yang baru, memperbaiki yang rusak, menguji kode, dan mengatur agen lain atau pipeline otomatisasi. Kategori lain meliputi operasi perangkat lunak, termasuk penyebaran, konfigurasi, menjalankan pipeline, dan pemantauan sistem. Ada dua kategori yang lebih fokus pada "apa yang harus dilakukan": memahami bagaimana sistem yang ada bekerja, dan merencanakan perubahan sebelum melakukan modifikasi. Dua kategori terakhir tidak terkait langsung dengan kode, atau kode hanya sebagai bagian pendukung akhir: analisis data, dan komunikasi melalui presentasi dan dokumen berbasis teks lainnya.
Sekitar 56% dari sesi terdiri dari penulisan kode (25%), perbaikan kode (26%), atau pengujian dan pengaturan kode (5%). Operasi perangkat lunak menyumbang 17%, perencanaan atau eksplorasi 14%, analisis atau penulisan teks 13% (lihat Gambar 1).
Kami pertama-tama membiarkan model membaca rekaman sesi, lalu mengklasifikasikan setiap sesi berdasarkan hasil tersebut; kemudian, menggunakan alat analisis perlindungan privasi kami, kami melakukan cross-check hasil klasifikasi dengan data telemetri otomatis yang merekam setiap sesi, termasuk apakah ada baris kode yang ditambahkan atau dihapus. Kedua sumber ini menunjukkan tingkat konsistensi yang tinggi. Misalnya, dalam sesi yang diklasifikasikan sebagai pembuatan atau modifikasi kode, lebih dari 90% juga menunjukkan perubahan kode dalam data telemetri. Rincian ada di lampiran.
Siapa yang membuat keputusan
Seberapa kuat otonomi Claude Code? Penilaian kemampuan menunjukkan bahwa batas atasnya sudah sangat tinggi dan terus meningkat. Misalnya, dalam pengujian benchmark seperti METR, model terbaru kini mampu menyelesaikan secara mandiri tugas perangkat lunak yang sebelumnya membutuhkan manusia berjam-jam, dan mampu mengatasi hambatan secara mandiri selama prosesnya. Tapi, bagaimana kenyataannya dalam penggunaan nyata? Di sini, kami fokus pada berapa banyak manusia dan Claude yang masing-masing memimpin dalam sebuah sesi.
Kami meneliti dari dua sudut pandang. Pertama, sejauh mana orang menyerahkan pengambilan keputusan kepada Claude; kedua, berapa banyak tindakan yang mereka berikan kepada Claude. Untuk memahami pembagian keputusan dalam satu sesi, kami membangun classifier berbasis isi sesi yang melindungi privasi. Classifier ini diminta mengidentifikasi semua keputusan penting dalam sesi, dan membaginya menjadi keputusan perencanaan dan keputusan eksekusi. Keputusan perencanaan meliputi apa yang harus dilakukan, metode yang digunakan, dan apa yang dianggap selesai; keputusan eksekusi meliputi file yang harus diubah, kode yang harus ditulis, bahasa yang digunakan, dan perintah yang dijalankan. Kemudian, classifier akan mengatribusikan setiap keputusan kepada Claude atau pengguna, dan menghasilkan dua angka untuk setiap sesi: proporsi keputusan perencanaan yang dilakukan pengguna, dan proporsi keputusan eksekusi yang dilakukan pengguna.
Rata-rata, manusia membuat sekitar 70% keputusan perencanaan, tetapi hanya 20% keputusan eksekusi (lihat Gambar 2). Dalam penggunaan nyata, pemrograman agen menunjukkan pembagian kerja yang jelas: manusia menentukan apa yang akan dibangun, agen menentukan bagaimana membangunnya.
Untuk memahami tingkat delegasi tindakan dalam satu sesi, kami tidak melihat isi percakapan, tetapi struktur percakapan itu sendiri. Sesi Claude Code terdiri dari interaksi bolak-balik antara Claude dan pengguna: pengguna mengirim prompt, Claude melakukan aksi; kemudian pengguna mengirim prompt berikutnya, dan seterusnya. Dalam sesi tipikal, jumlah putaran sekitar empat. Dari data historis kami dari Oktober hingga April, setiap kali pengguna mengirim satu prompt, rata-rata Claude akan melakukan sekitar 10 aksi, kadang bahkan lebih dari 100 aksi. Dalam setiap putaran, Claude membaca file, mengedit kode, menjalankan perintah, dan rata-rata menghasilkan sekitar 2.400 kata.
Jumlah pekerjaan yang diselesaikan Claude antara dua pemeriksaan pengguna sangat bergantung pada siapa yang memimpin pengambilan keputusan. Ketika pengguna tetap mengendalikan proses eksekusi, yaitu melakukan lebih dari 80% keputusan eksekusi, Claude melakukan sekitar 8 aksi per putaran. Sebaliknya, jika Claude mengendalikan perencanaan, yaitu membuat lebih dari 80% keputusan perencanaan, jumlah aksi tertinggi yang dilakukan Claude sekitar 16.
Tingkat profesional
Berdasarkan setiap rekaman sesi, Claude menilai tingkat profesional pengguna dalam tugas tersebut pada skala lima tingkat, dari pemula hingga ahli. Klasifikasi tingkat profesional ini memperhatikan tiga sinyal: tingkat ketepatan instruksi pengguna, apa yang diminta Claude untuk diverifikasi, dan apakah pengguna lebih sering mengoreksi Claude atau sebaliknya. Perlu dicatat bahwa tingkat profesional ini berbeda sama sekali dari jabatan atau kemampuan umum, dan yang penting adalah ini bersifat spesifik untuk tugas tertentu. Seorang insinyur berpengalaman yang pertama kali bertanya tentang Rust, tetap bisa dianggap pemula dalam tugas Rust. Seorang akuntan yang belum pernah menggunakan Python, tetapi mampu memberi tahu Claude aturan rekonsiliasi tertentu dalam skrip Python dan menangkap batasan saat penutupan bulan, bisa dianggap sebagai ahli dalam tugas tersebut.
Tabel berikut menunjukkan bagaimana kami mendefinisikan setiap tingkat profesional dalam classifier, dan contoh permintaan dari dataset percakapan AI pemrograman terbuka SWE-chat. Percakapan yang diklasifikasikan sebagai "pemula" berisi instruksi umum tanpa menunjukkan pengetahuan domain tertentu; sedangkan percakapan "ahli" menyampaikan pemahaman mendalam tentang basis kode dan lingkungan teknis.
Kami mengukur hubungan antara tingkat profesional dan output serta aktivitas yang dihasilkan Claude per prompt. Dalam sesi pemula tipikal, setiap prompt memicu sekitar 5 aksi dari Claude dan menghasilkan sekitar 600 kata; sedangkan dalam sesi ahli, panjang rantai aksi lebih dari dua kali lipat, sekitar 12 aksi, dan output mencapai sekitar 3.200 kata, lima kali lipat dari yang pertama (lihat Gambar 3). Perbedaan ini antara pemula dan ahli muncul di semua jenis pekerjaan dan semua rentang nilai tugas.
Indikator ini melengkapi studi kami sebelumnya tentang otonomi Claude Code. Penelitian sebelumnya melacak durasi operasi agen dan seberapa sering pengguna menyetujui tindakan otomatisnya. Sebaliknya, indikator atribusi keputusan kami menangkap siapa yang membuat keputusan substantif selama sesi, sementara jumlah output dan aksi yang dipicu oleh setiap prompt mengukur sejauh mana instruksi manusia dapat memicu aktivitas otonom Claude.
Siapa yang menggunakan Claude Code dan untuk apa
Pengguna
Untuk memahami siapa yang melakukan pekerjaan ini, kami memperkirakan profesi setiap pengguna berdasarkan rekaman sesi, dan memetakannya ke salah satu dari 23 kategori utama klasifikasi profesi Biro Statistik Tenaga Kerja AS (SOC). Classifier ini diminta hanya menggunakan sinyal berikut: konteks proyek yang dimuat saat sesi dimulai, nama dan struktur file, referensi bahan atau produk yang dirujuk pengguna—misalnya dokumen hukum, data klinis, laporan keuangan, materi kuliah—dan kosakata yang digunakan pengguna. Classifier ini secara eksplisit dilarang menganggap "menulis kode" sebagai bukti bahwa pengguna berprofesi sebagai programmer. Hanya jika ada sinyal yang jelas menunjukkan pekerjaan terkait perangkat lunak atau data, sesi akan diklasifikasikan ke kategori SOC terkait pemrograman, yaitu "profesi komputer dan matematika". Jika seorang pengacara membuat skrip untuk memeriksa otomatis kekurangan klausul dalam kontrak, meskipun sesi tersebut terutama tentang penulisan perangkat lunak, tetap akan diklasifikasikan sebagai pekerjaan hukum. Jika tidak ada sinyal tentang profesi pengguna, sesi tidak diklasifikasikan.
Kami mampu memperkirakan profesi dalam sekitar 70% sesi. Dari sesi yang dapat diklasifikasi, kategori terbesar adalah "profesi komputer dan matematika", yang tidak mengejutkan karena mencakup sebagian besar pekerjaan terkait perangkat lunak. Selanjutnya adalah bidang bisnis dan keuangan, seni dan media, manajemen, serta ilmu kehidupan, ilmu fisika, dan ilmu sosial. Di samping itu, kategori profesi non-perangkat lunak yang paling cepat berkembang adalah manajemen, penjualan, dan hukum.
Pekerjaan
Dari Oktober 2025 hingga April 2026, komposisi pekerjaan yang dilakukan dengan Claude Code mengalami perubahan signifikan. Perubahan paling mencolok adalah penurunan proporsi sesi yang digunakan untuk debugging kode rusak dari 33% menjadi 19% (lihat Gambar 4). Sebagai gantinya, muncul lebih banyak pekerjaan yang berfokus pada kode. Proporsi operasi perangkat lunak meningkat dari 14% menjadi 21%. Penulisan dan analisis data meningkat sekitar dua kali lipat, dari sekitar 10% menjadi sekitar 20%.
Nilai dari tugas-tugas ini juga meningkat. Kami memperkirakan nilai ekonomi setiap sesi dengan memperbandingkannya dengan biaya pekerjaan serupa di pasar freelance, dan mengkalibrasi dengan dataset lowongan pekerjaan nyata yang tersedia secara publik. Berdasarkan indikator ini, nilai rata-rata sesi meningkat sekitar 27% dari Oktober hingga April. Peningkatan ini terjadi di berbagai jenis pekerjaan. Nilai tugas membangun, mengoperasikan, dan memperbaiki masing-masing meningkat sekitar 43%, 34%, dan 32%. Estimasi harga ini cukup kasar, sehingga kami menggunakannya terutama untuk melihat tren perubahan nilai antar tugas dari waktu ke waktu, bukan sebagai nilai dolar yang langsung dapat dibaca. Rincian tentang cara membangun estimasi nilai tugas ada di lampiran.
Keberhasilan bergantung pada apa yang dibawa pengguna
Mengestimasi nilai tugas adalah salah satu cara memahami bagaimana Claude Code membantu orang menyelesaikan pekerjaan. Pendekatan lain adalah dengan mengamati berapa banyak sesi yang berhasil, dan fitur apa dari sesi tersebut yang terkait dengan keberhasilan. Dalam semua indikator keberhasilan, kami melihat pola yang jelas: semakin tinggi tingkat profesionalisme yang ditunjukkan pengguna dalam sesi, semakin besar kemungkinan sesi tersebut berhasil. Kebanyakan peningkatan terjadi dari tingkat pemula ke menengah, artinya perbedaan antara pemula dan pengguna menengah lebih besar daripada antara menengah dan ahli.
Sebelum menganalisis fitur sesi yang berhasil, kami perlu mendefinisikan secara tepat apa arti keberhasilan. Kami tidak dapat mengamati hasil nyata di dunia nyata, maupun menanyakan langsung kepada pengguna apakah mereka berhasil menyelesaikan apa yang mereka inginkan dengan Claude. Oleh karena itu, kami mengandalkan dua metode pengukuran berbasis rekaman sesi yang saling melengkapi. Pertama, "menilai keberhasilan" oleh classifier yang membaca seluruh rekaman sesi dan menentukan apakah pengguna mencapai tujuan awalnya, dengan kategori berhasil, sebagian berhasil, gagal, atau tanpa target yang jelas. Kemudian, dua classifier pendukung menilai kekuatan bukti keberhasilan tersebut untuk memastikan "keberhasilan terverifikasi". Indikator keberhasilan ini mencari bukti keberhasilan yang dapat diverifikasi, termasuk aktivitas git yang sesuai, seperti commit dan pull request, pengujian yang lulus, dan pengakuan eksplisit dari pengguna. Mereka memberi skor dari "tanpa sinyal" (1) hingga "banyak sinyal keras" (5). Sebaliknya, classifier kegagalan menilai bukti kesalahan, kegagalan pengujian, percobaan berulang, dan ketidaksetujuan pengguna terhadap output. Keberhasilan terverifikasi mensyaratkan kedua kondisi ini terpenuhi: sesi dinilai berhasil dan setidaknya ada satu sinyal keberhasilan yang dapat diverifikasi. Analisis berikut ini berfokus pada tingkat keberhasilan atau kegagalan sesi, sehingga kami mengecualikan sesi yang dinilai "tanpa target yang jelas", yang sekitar 7,7% dari sampel lengkap.
Imbalan dari tingkat profesional
Lalu, sesi mana yang paling mudah berhasil? Hasilnya menunjukkan bahwa skor tingkat profesional yang disebutkan di atas sangat berpengaruh besar terhadap keberhasilan sesi.
Ada kekhawatiran bahwa tingkat profesionalisme mungkin bukan faktor utama. Mungkin saja, para ahli memilih tugas yang berbeda, atau memiliki karakteristik lain yang berbeda. Dalam bagian ini, kami membandingkan sesi dari jenis pekerjaan yang sama, dengan nilai estimasi yang sama, di bulan yang sama, dengan topik yang sama, dan dari kelompok profesi utama yang sama, untuk sebagian menjawab kekhawatiran ini dan melihat bagaimana perbedaan tingkat profesional mempengaruhi hasil.
Dalam semua indikator keberhasilan, semakin tinggi tingkat profesional yang ditunjukkan pengguna dalam sesi, semakin besar kemungkinan keberhasilan. Sesi yang dinilai sebagai pemula memiliki tingkat keberhasilan "terverifikasi" sekitar 15%, dan tingkat keberhasilan minimal sebagian sekitar 77%. Sedangkan sesi dari pengguna tingkat menengah ke atas memiliki tingkat keberhasilan terverifikasi sekitar 28% hingga 33%, dan tingkat keberhasilan sebagian sekitar 91% hingga 92% (lihat Gambar 5).
Dalam setiap indikator, sebagian besar manfaat berasal dari peningkatan dari pemula ke menengah; dari menengah ke ahli, kurva pertumbuhan menjadi lebih landai. Rincian analisis regresi di balik Gambar 5 ada di lampiran.
Dalam sesi yang menghadapi tantangan, juga terlihat pola gradien yang serupa. Ketika bukti kegagalan yang terverifikasi muncul, kami menganggap sesi tersebut "mengalami masalah". Ini bisa termasuk munculnya kesalahan, kegagalan pengujian, percobaan berulang, atau ketidakpuasan pengguna terhadap output. Dalam sesi yang bermasalah, setelah mengendalikan semua variabel tersebut, tingkat keberhasilan terverifikasi meningkat dari sekitar 4% pada sesi pemula menjadi sekitar 15% pada sesi ahli (lihat Gambar 5). Jika menggunakan indikator keberhasilan yang lebih longgar, kami menemukan bahwa tingkat keberhasilan minimal sebagian adalah 60% untuk pengguna pemula dan 80-81% untuk pengguna tingkat menengah ke atas.
Kami juga melacak hubungan terbalik, yaitu antara tingkat profesional dan berbagai indikator kegagalan. Perlu diingat bahwa dalam analisis ini, sesi yang dinilai gagal adalah yang sama sekali tidak mencapai keberhasilan parsial. Jika sesi bermasalah dan dinilai gagal, dan tidak ada baris kode yang ditulis, kami sebut sebagai "ditinggalkan". Dalam sesi yang tampaknya dilakukan oleh pengguna pemula, sekitar 19% akhirnya ditinggalkan; sedangkan di kelompok pengguna lain, angka ini berkisar 5% hingga 7%. Artinya, pengguna dengan pengalaman paling sedikit lebih cenderung menyerah saat menghadapi kesulitan dalam mencapai tujuan. Sebagian dari nilai profesionalisme tampaknya terletak pada kemampuan untuk mengarahkan agen kembali ke jalur yang benar.
Profesi mungkin tidak sepenting tingkat profesionalisme
Pengguna dari profesi terkait perangkat lunak memiliki tingkat keberhasilan terverifikasi sekitar 30%, sedangkan pengguna dari profesi lain sekitar 26%. Dalam sesi yang menghasilkan kode, yaitu minimal menambah atau mengubah satu baris kode, angka ini masing-masing 34% dan 29% (lihat Gambar 6). Jika menggunakan definisi keberhasilan yang lebih longgar, perbedaan antara profesi terkait perangkat lunak dan lainnya akan semakin kecil. Dalam sesi yang menghasilkan kode, proporsi keberhasilan minimal dari kedua kelompok ini adalah 89% dan 88%. Perbedaan lima poin persentase ini tidak besar dan tidak membesar maupun menyusut selama tujuh bulan, meskipun tingkat keberhasilan keduanya meningkat. Dalam dataset kami, dari sepuluh kelompok profesi terbesar yang menghasilkan kode, setiap kelompok memiliki tingkat keberhasilan yang berbeda kurang dari tujuh poin persentase dari insinyur perangkat lunak. Profesi manajemen memiliki tingkat keberhasilan terverifikasi tertinggi, sedikit di atas profesi perangkat lunak. Tingkat keberhasilan yang lebih tinggi ini mungkin mencerminkan bahwa keterampilan manajemen dapat diterapkan dalam mengarahkan agen. Tetapi, ini juga bisa dipengaruhi oleh cara pengukuran kami: verifikasi sebagian bergantung pada konfirmasi eksplisit dari pengguna, dan manajer mungkin lebih terbiasa mengekspresikan kepuasan saat mendapatkan hasil yang diinginkan.
Pandangan ke depan
Hasil dari laporan ini menggambarkan gambaran yang sedang terbentuk: pemrograman agen memperbesar beberapa pengetahuan dan keterampilan, sekaligus menggantikan yang lain. Dalam sesi yang menghasilkan kode, tingkat keberhasilan dari berbagai profesi utama tidak jauh berbeda dari profesi terkait perangkat lunak. Tampaknya, pemrograman agen membuat latar belakang pemrograman menjadi kurang penting untuk keberhasilan menyelesaikan tugas pemrograman.
Pada saat yang sama, sesi yang berhasil lebih cenderung menunjukkan pengetahuan domain. Sesi yang dinilai sebagai ahli memiliki tingkat keberhasilan terverifikasi lebih dari dua kali lipat dari sesi pemula. Ketika sesi bermasalah, tingkat pengguna pemula yang menyerah jauh lebih tinggi daripada pengguna lain. Pola kolaborasi ini menjadi semakin jelas: para ahli domain mampu memanfaatkan setiap instruksi untuk mengarahkan Claude menyelesaikan lebih banyak pekerjaan. Oleh karena itu, kemampuan untuk mengarahkan Claude menuju keberhasilan lebih banyak bergantung pada penguasaan bidang tertentu, bukan kemampuan menulis kode. Siapa pun yang menguasai bidang tersebut saat ini dapat menyelesaikan pekerjaan teknis yang sebelumnya tidak mampu dilakukan. Sebaliknya, mereka yang kurang memahami bidang tersebut, bahkan dengan alat yang sama, akan mendapatkan hasil yang jauh lebih sedikit. Dan, manfaat utamanya berasal dari kompetensi, bukan dari keahlian mendalam. Memiliki pemahaman operasional tentang bidang tertentu sudah cukup untuk memperoleh sebagian besar manfaat; keahlian mendalam hanya menambah sedikit keuntungan ekstra di atasnya.
Temuan ini masih bersifat awal. Seperti kebanyakan studi kami, kami tidak dapat mengukur hasil nyata di dunia nyata, misalnya apakah kode yang ditulis dalam sesi tersebut akhirnya digunakan atau dibuang, atau apakah menghasilkan manfaat ekonomi. Selain itu, penggunaan non-interaktif yang tidak termasuk dalam laporan ini, juga merupakan bagian besar dari aktivitas. Mengembangkan kerangka kerja untuk mengukur penggunaan semacam ini adalah salah satu pekerjaan utama di masa depan. Selanjutnya, semua klasifikasi sesi bergantung pada model yang membaca rekaman sesi. Di lampiran, kami menunjukkan bahwa classifier ini tetap konsisten dengan data telemetri independen yang sesuai, dan umumnya sejalan dengan penilaian model referensi yang kuat. Tetapi, dalam skenario skala besar, memverifikasi classifier tetap menantang; sesi Claude Code sendiri juga menambah kesulitan, karena bisa sangat panjang dan kompleks, sehingga sulit untuk dijadikan patokan manusia.
Seiring model dan pengguna serta pembagian kerja di antara keduanya terus berkembang, gambaran dalam laporan ini juga akan terus diperbarui. Kami berharap indikator-indikator ini dapat membantu kita melacak perubahan besar yang sedang berlangsung. Misalnya, jika di masa depan imbalan dari tingkat profesional mulai menurun, itu akan menunjukkan bahwa model mulai menyediakan penilaian penting yang sebelumnya hanya dilakukan manusia, dan manfaat alat ini akan meluas dari para pakar domain ke populasi yang lebih luas. Jika proporsi pengguna dari luar profesi perangkat lunak yang berhasil menyelesaikan sesi pemrograman terus meningkat, itu bisa berarti bahwa produksi perangkat lunak menjadi bagian dari pekerjaan umum di berbagai bidang, bukan lagi produk dari satu profesi saja. Perubahan ini akan mempengaruhi siapa yang dapat memperoleh manfaat dari pemrograman agen, dan seberapa besar manfaat tersebut, serta akan mempengaruhi kemampuan yang paling dihargai di pasar tenaga kerja.