Siapa yang paling pandai menggunakan Claude Code? Jawabannya mungkin bukan programmer

Penulis: Anthropoic;Diterjemahkan: Peggy, Blockchain Movement

Laporan ini didasarkan pada sekitar 400.000 sesi Claude Code, membahas bagaimana alat pemrograman AI sedang mengubah hubungan antara manusia dan kode.

Temuan utama dari artikel ini adalah: dalam pemrograman agen cerdas, manusia terutama memutuskan "apa yang harus dilakukan", sementara Claude bertanggung jawab atas "bagaimana melakukannya". Pengguna memegang sebagian besar keputusan perencanaan, sedangkan Claude menangani sebagian besar eksekusi. Dengan kata lain, AI sedang mengambil alih proses pembuatan kode, pengeditan file, menjalankan perintah, debugging, dan tahap implementasi lainnya, tetapi penetapan tujuan dan penilaian hasil tetap bergantung pada manusia.

Lebih penting lagi, efektivitas penggunaan Claude Code tidak hanya bergantung pada apakah pengguna adalah programmer. Laporan menunjukkan bahwa dalam tugas menghasilkan kode, pengguna dari profesi non-teknis seperti hukum, keuangan, manajemen, dan penelitian ilmiah sudah mendekati tingkat keberhasilan insinyur perangkat lunak. Yang benar-benar mempengaruhi hasil adalah apakah pengguna memahami masalah yang ingin diselesaikan.

Ini berarti, pemrograman AI menurunkan hambatan implementasi, bukan hambatan penilaian. Di masa depan, orang yang memahami bisnis, konteks, mampu mengajukan kebutuhan dan menilai hasil secara jelas, mungkin akan lebih mampu memanfaatkan AI dibandingkan mereka yang hanya mampu menulis kode. AI tidak akan otomatis menggantikan pengetahuan domain, malah akan memperkuat nilai dari pengetahuan tersebut.

Berikut adalah teks asli:

Temuan Kunci

Berdasarkan penelitian sebelumnya, kami mengusulkan sebuah kerangka kerja untuk mempelajari pemrograman agen cerdas interaktif. Kerangka ini didasarkan pada analisis perlindungan privasi dari sekitar 400.000 sesi Claude Code selama periode Oktober 2025 hingga April 2026, menilai komposisi tugas, cara kolaborasi manusia dan AI, serta tingkat keberhasilan tugas.

Dalam satu sesi tipikal, manusia bertanggung jawab atas sebagian besar keputusan perencanaan, yaitu menentukan "apa yang harus dilakukan"; Claude bertanggung jawab atas sebagian besar keputusan eksekusi, yaitu menentukan "bagaimana melakukannya". Semakin tinggi keahlian pengguna di bidang tertentu, semakin besar pula volume pekerjaan yang dipicu oleh setiap instruksi Claude. Dalam tugas pengkodean, tingkat keberhasilan rata-rata dari berbagai kelompok profesi utama—yaitu apakah mereka menyelesaikan apa yang awalnya ingin dilakukan pengguna, dan memiliki bukti verifikasi seperti pengujian dan pengiriman kode—hampir setara dengan insinyur perangkat lunak.

Semakin tinggi kemampuan profesional pengguna, semakin besar kemungkinan sesi berakhir dengan keberhasilan. Namun, perbedaan antara pengguna tingkat menengah dan ahli tidak besar. Dalam tujuh bulan pengamatan kami, proporsi sesi debugging hampir berkurang setengah, dan cara penggunaannya beralih ke penggunaan agen yang lebih end-to-end: menyebarkan dan menjalankan kode, menganalisis data, serta menulis dokumen non-kode.

Dalam periode ini, nilai dari tugas-tugas tipikal hampir meningkat di semua jenis pekerjaan. Kami memperkirakan nilai tugas ini dengan membandingkan dengan data lowongan pekerjaan freelance, dan hasilnya menunjukkan kenaikan rata-rata sekitar 25%.

Pendahuluan

Pemrograman agen cerdas sedang berkembang pesat. Sejak akhir 2025, proporsi proyek di GitHub yang melibatkan aktivitas agen pemrograman telah berlipat ganda, dan pengguna Claude Code kini rata-rata menggunakan alat ini selama 20 jam per minggu. Apakah orang tanpa pengalaman pemrograman resmi dapat berhasil mengarahkan agen cerdas menyelesaikan pekerjaan teknis yang kompleks? Bagaimana adopsi cepat dan peningkatan kemampuan alat ini akan mempengaruhi pekerjaan berbasis pengetahuan yang lebih luas? Kami belum dapat memberikan jawaban lengkap, tetapi dari data penggunaan Claude Code, kami dapat melihat beberapa sinyal awal.

Laporan ini didasarkan pada analisis perlindungan privasi dari sekitar 235.000 pengguna dan sekitar 400.000 sesi interaktif selama periode Oktober 2025 hingga April 2026, menyediakan bukti tentang cara penggunaan Claude Code secara nyata. Ini melanjutkan penelitian sebelumnya tentang indikator otonomi dalam sesi Claude Code dan bagaimana Claude Code mengubah cara kerja internal di Anthropic. Artikel ini akan memperkenalkan sebuah kerangka untuk mendeskripsikan penggunaan asisten AI interaktif: apa yang dilakukan orang, siapa yang melakukan, dan apakah pekerjaan tersebut berhasil. Kami fokus pada penggunaan Claude Code melalui antarmuka baris perintah (CLI), Claude.ai, atau aplikasi desktop Claude Code. Dengan melacak bagaimana penggunaan pemrograman agen berubah seiring peningkatan kemampuan model, kita dapat memahami dampaknya terhadap profesional pemrograman dan pasar tenaga kerja pekerja berbasis pengetahuan.

Apa yang terjadi di Claude Code mungkin menjadi petunjuk tentang masa depan pekerjaan berbasis pengetahuan: agen cerdas akan semakin menyatu dengan pekerjaan non-pemrograman. Kami menemukan bahwa Claude sedang menangani tugas yang lebih kompleks dan bernilai lebih tinggi. Pada saat yang sama, ada pembagian kerja yang jelas dalam pemrograman agen: manusia menentukan apa yang akan dibangun, agen menentukan bagaimana membangunnya.

Kami juga menemukan bahwa kekuatan nyata dalam memperbesar efektivitas alat adalah pengetahuan domain, bukan keahlian pemrograman. Terutama, para ahli di bidang tertentu lebih mudah berhasil dan lebih cepat pulih dari kesalahan atau kesalahpahaman. Namun, perbedaan antara pengguna tingkat menengah dan ahli tidak besar. Ini menunjukkan bahwa selama seseorang cukup mahir di bidang tertentu, mereka hampir dapat menggunakan alat ini secara efektif seperti seorang ahli mendalam.

Temuan ini memungkinkan kami mengamati kemungkinan perubahan di pasar tenaga kerja. Dalam data kami, keberhasilan tergantung pada apakah orang memahami masalah yang ingin diselesaikan, bukan apakah mereka dilatih pemrograman. Jika pola ini berlaku secara luas, itu berarti, meskipun agen cerdas mungkin menyerap sebagian pekerjaan yang berorientasi pada implementasi, mereka juga akan memberi insentif kepada orang yang benar-benar memahami masalah yang mereka hadapi. Pemrograman agen bukanlah pengganti pengetahuan domain. Sebaliknya, semakin banyak pemahaman yang dimiliki pekerja tentang masalah mereka, semakin banyak pekerjaan berkualitas tinggi yang dapat diselesaikan agen.

Pembagian Kerja

Apa yang dilakukan orang dengan Claude Code

Untuk memahami siapa yang melakukan pekerjaan ini, kami mengklasifikasikan setiap sesi ke dalam salah satu dari sembilan mode kerja, yaitu aktivitas tunggal yang paling menggambarkan tujuan sesi tersebut. Empat mode langsung terkait dengan penulisan atau pemeliharaan kode: membangun sesuatu yang baru, memperbaiki yang rusak, menguji kode, dan mengatur agen lain atau pipeline otomatis. Kategori lain meliputi operasi perangkat lunak: menyebarkan, mengonfigurasi, menjalankan pipeline, dan memantau sistem. Ada dua kategori yang lebih fokus pada memahami "apa yang harus dilakukan": memahami bagaimana sebuah sistem berfungsi saat ini, dan merencanakan perubahan sebelum melakukan modifikasi. Dua kategori terakhir tidak terkait langsung dengan kode, atau kode hanya sebagai bagian pendukung: menganalisis data, dan berkomunikasi melalui presentasi dan dokumen berbasis teks lainnya.

Sekitar 56% dari sesi terdiri dari penulisan kode (25%), perbaikan kode (26%), atau pengujian dan pengaturan kode (5%). Operasi perangkat lunak menyumbang 17%, perencanaan atau eksplorasi 14%, analisis data atau penulisan teks 13% (lihat Gambar 1).

> Gambar 1: Sembilan mode kerja. Setiap sesi interaktif diklasifikasikan sebagai mode kerja yang paling menggambarkan tujuannya.

Kami pertama-tama membiarkan model membaca catatan sesi dan mengklasifikasikan setiap sesi; kemudian menggunakan alat analisis perlindungan privasi kami, kami cross-cek hasil klasifikasi dengan data telemetri otomatis yang merekam setiap sesi, termasuk apakah ada penambahan atau penghapusan baris kode. Kedua sumber ini menunjukkan tingkat konsistensi yang tinggi. Misalnya, dalam sesi yang diklasifikasikan sebagai pembuatan atau modifikasi kode, lebih dari 90% juga menunjukkan perubahan kode dalam data telemetri. Detailnya ada di lampiran.

Siapa yang membuat keputusan

Seberapa kuat otonomi Claude Code? Penilaian kemampuan menunjukkan bahwa batas atasnya sudah sangat tinggi dan terus meningkat. Misalnya, dalam pengujian benchmark seperti METR, model terbaru kini mampu menyelesaikan secara mandiri tugas perangkat lunak yang sebelumnya membutuhkan berjam-jam kerja manusia, dan mampu mengatasi hambatan secara mandiri selama prosesnya. Tapi, bagaimana kenyataannya dalam penggunaan nyata? Di sini, kami fokus pada berapa banyak manusia dan Claude yang masing-masing memimpin selama sesi.

Kami meneliti dari dua sudut pandang. Pertama, sejauh mana orang menyerahkan pengambilan keputusan kepada Claude; kedua, berapa banyak tindakan yang mereka berikan kepada Claude. Untuk memahami pembagian keputusan dalam satu sesi, kami membangun classifier yang melindungi privasi, yang mengklasifikasikan semua keputusan penting dalam sesi tersebut. Kami meminta classifier menyebutkan semua keputusan penting, dan membaginya menjadi keputusan perencanaan dan keputusan eksekusi. Keputusan perencanaan meliputi apa yang harus dilakukan, metode apa yang digunakan, apa yang dianggap selesai; keputusan eksekusi meliputi file apa yang harus diubah, kode apa yang harus ditulis, bahasa apa yang digunakan, dan perintah apa yang dijalankan. Kemudian, classifier akan mengatribusikan setiap keputusan ke Claude atau pengguna, dan menghasilkan dua angka untuk setiap sesi: proporsi keputusan perencanaan yang dilakukan pengguna, dan proporsi keputusan eksekusi yang dilakukan pengguna.

Rata-rata, manusia membuat sekitar 70% keputusan perencanaan, tetapi hanya 20% keputusan eksekusi (lihat Gambar 2). Dalam praktiknya, pemrograman agen menciptakan pembagian kerja yang jelas: manusia menentukan apa yang akan dibangun, agen menentukan bagaimana membangunnya.

Untuk memahami tingkat delegasi tindakan dalam satu sesi, kami tidak melihat isi, tetapi struktur sesi. Sesi Claude Code terdiri dari interaksi bolak-balik antara Claude dan pengguna: pengguna mengirim prompt, Claude melakukan aksi; kemudian pengguna mengirim prompt berikutnya, dan seterusnya. Dalam sesi tipikal, jumlah putaran sekitar empat. Dari data kami dari Oktober hingga April, setiap kali pengguna mengirim satu prompt, rata-rata Claude akan melakukan sekitar 10 aksi, kadang bahkan lebih dari 100. Dalam setiap putaran, Claude membaca file, mengedit kode, menjalankan perintah, dan rata-rata menghasilkan 2400 kata.

Jumlah pekerjaan yang diselesaikan Claude antara dua pemeriksaan pengguna sangat bergantung pada siapa yang memimpin pengambilan keputusan. Ketika pengguna mempertahankan kendali atas proses eksekusi—yaitu, mereka membuat lebih dari 80% keputusan eksekusi—Claude melakukan lebih sedikit aksi per putaran, sekitar 8. Sebaliknya, jika Claude menguasai kendali perencanaan—yaitu, Claude membuat lebih dari 80% keputusan perencanaan—maka jumlah aksi tertinggi, sekitar 16, akan dilakukan Claude.

> Gambar 2: Proporsi Claude dalam keputusan perencanaan dan eksekusi. Gambar ini menunjukkan distribusi proporsi keputusan perencanaan (apa yang dilakukan) dan eksekusi (bagaimana melakukannya) yang diatribusikan ke Claude dibandingkan pengguna dalam berbagai sesi. Dalam sesi tipikal, pengguna membuat sekitar 70% keputusan perencanaan, sementara Claude melakukan sekitar 80% keputusan eksekusi.

Tingkat Profesional

Berdasarkan catatan setiap sesi, Claude menilai tingkat profesional pengguna dalam tugas tersebut dengan skala lima tingkat, dari pemula hingga ahli. Klasifikasi tingkat profesional ini memperhatikan tiga sinyal: ketepatan instruksi pengguna, apa yang diminta Claude untuk diverifikasi, dan apakah pengguna lebih sering mengoreksi Claude atau sebaliknya. Perlu dicatat bahwa tingkat profesional ini sama sekali berbeda dari posisi atau kemampuan umum, dan yang penting adalah, ini bersifat spesifik untuk tugas tertentu. Seorang insinyur berpengalaman yang pertama kali bertanya tentang Rust, tetap bisa dianggap pemula dalam tugas Rust. Seorang akuntan yang belum pernah menggunakan Python, tetapi mampu memberi tahu Claude aturan rekonsiliasi tertentu dalam skrip Python dan mampu menangkap situasi batas saat proses penutupan bulan, akan dianggap sebagai ahli dalam tugas tersebut.

Tabel berikut menunjukkan bagaimana kami mendefinisikan berbagai tingkat profesional dalam classifier, dan contoh permintaan dari dataset percakapan cerdas terbuka SWE-chat. Percakapan yang diklasifikasikan sebagai "pemula" berisi instruksi umum tanpa pengetahuan domain khusus; sedangkan percakapan "ahli" menunjukkan pemahaman mendalam tentang basis kode dan lingkungan teknis.

> Tabel 1: Klasifikasi tingkat profesional. Contoh percakapan nyata telah diubah, dianonimkan, dan dipadatkan, dan diberi label oleh classifier kami. Banyak contoh berasal dari dataset percakapan cerdas terbuka SWE-chat.

Kami mengukur hubungan antara tingkat profesional dan jumlah output serta aktivitas yang dihasilkan Claude per prompt. Dalam sesi pemula tipikal, setiap prompt memicu sekitar 5 aksi dan menghasilkan sekitar 600 kata; sedangkan dalam sesi ahli, panjang rantai aksi lebih dari dua kali lipat, sekitar 12 aksi, dan outputnya mencapai sekitar 3200 kata, lima kali lipat dari yang pertama (lihat Gambar 3). Perbedaan ini muncul di semua jenis pekerjaan dan semua rentang nilai tugas.

Indikator ini melengkapi studi kami sebelumnya tentang otonomi Claude Code. Penelitian sebelumnya melacak durasi operasional agen dan seberapa sering pengguna menyetujui otomatis tindakannya. Sebaliknya, indikator atribusi keputusan kami menangkap siapa yang membuat keputusan substantif selama sesi, sementara jumlah output dan aksi yang dipicu oleh setiap prompt mengukur sejauh mana instruksi manusia dapat memicu aktivitas otonom Claude.

> Gambar 3: Semakin profesional pengguna, Claude menyelesaikan lebih banyak pekerjaan per prompt. Semakin tinggi tingkat profesional, semakin banyak aksi (kiri) dan output teks (kanan) yang dihasilkan Claude per prompt. Kotak menunjukkan kuartil, garis tengah adalah median. Garis whisker menunjukkan persentil ke-5 hingga ke-95. Titik putih adalah rata-rata geometris. Kedua tren meningkat ini signifikan secara statistik (p < 0.001), dan perbedaan antar tingkat profesional juga signifikan. Setelah mengontrol mode kerja, nilai tugas, bulan, profesi, dan seri model, serta mengelompokkan pengguna secara statistik, tren ini tetap signifikan: setiap kenaikan satu tingkat profesional meningkatkan jumlah aksi sebesar 9%, dan output sebesar 13%.

Siapa yang Menggunakan Claude Code dan Apa yang Mereka Lakukan

Pengguna

Untuk memahami siapa yang melakukan pekerjaan ini, kami memprediksi profesi setiap pengguna berdasarkan catatan sesi, dan memetakannya ke salah satu dari 23 kategori utama dalam sistem klasifikasi profesi Amerika Serikat (SOC). Classifier ini hanya menggunakan sinyal berikut: konteks proyek yang dimuat saat sesi dimulai, nama dan struktur file, referensi bahan atau produk yang digunakan, seperti dokumen hukum, data klinis, laporan keuangan, materi kursus, dan sebagainya, serta kosakata yang digunakan pengguna. Classifier ini secara eksplisit diminta untuk tidak menganggap "menulis kode" sebagai bukti bahwa pengguna adalah pekerja pemrograman. Hanya jika ada sinyal yang jelas menunjukkan pekerjaan terkait perangkat lunak atau data, sesi akan diklasifikasikan ke kategori SOC terkait pemrograman, yaitu "profesi komputer dan matematika". Misalnya, jika seorang pengacara membuat skrip untuk secara otomatis memeriksa kekurangan klausul dalam kontrak, meskipun sesi tersebut terutama tentang penulisan perangkat lunak, tetap akan diklasifikasikan sebagai pekerjaan hukum. Jika tidak ada sinyal tentang profesi pengguna, sesi tidak diklasifikasikan.

Kami dapat memprediksi profesi sekitar 70% dari semua sesi. Di antara sesi yang dapat diklasifikasi, "profesi komputer dan matematika" adalah yang terbesar, tidak mengherankan karena kategori ini mencakup sebagian besar pekerjaan terkait perangkat lunak. Selanjutnya adalah bidang bisnis dan keuangan, seni dan media, manajemen, serta ilmu kehidupan, fisika, dan ilmu sosial. Di samping itu, kelompok profesi non-perangkat lunak yang paling cepat berkembang adalah manajemen, penjualan, dan hukum.

Pekerjaan

Dari Oktober 2025 hingga April 2026, komposisi pekerjaan yang dilakukan dengan Claude Code mengalami perubahan signifikan. Perubahan paling mencolok adalah proporsi sesi yang digunakan untuk memperbaiki kode rusak menurun dari 33% menjadi 19% (lihat Gambar 4). Sebaliknya, lebih banyak pekerjaan yang berfokus pada kode. Proporsi operasi perangkat lunak meningkat dari 14% menjadi 21%. Penulisan dan analisis data hampir berlipat ganda, dari sekitar 10% menjadi sekitar 20%.

Nilai tugas itu sendiri juga meningkat. Kami memperkirakan nilai ekonomi setiap sesi dengan memperkirakan biaya pekerjaan serupa di pasar freelance dan melakukan kalibrasi dengan dataset lowongan nyata. Berdasarkan indikator ini, nilai rata-rata sesi meningkat sekitar 27% dari Oktober hingga April. Peningkatan ini terjadi di berbagai jenis pekerjaan. Tugas pembangunan, pengoperasian, dan perbaikan masing-masing meningkat sekitar 43%, 34%, dan 32%. Estimasi harga ini cukup kasar, jadi kami menggunakannya terutama untuk membandingkan tren perubahan nilai antar tugas dari waktu ke waktu, bukan sebagai nilai dolar langsung. Rincian tentang cara membangun alat estimasi nilai tugas ada di lampiran.

> Gambar 4: Perubahan komposisi dan nilai pekerjaan Claude Code dari Oktober 2025 hingga April 2026. Gambar ini menunjukkan proporsi berbagai mode kerja selama periode tujuh bulan. Proporsi sesi yang digunakan untuk memperbaiki kode rusak turun dari 33% menjadi 19%, sementara proporsi operasi perangkat lunak, analisis data, dan penulisan dokumen meningkat.

Keberhasilan bergantung pada apa yang dibawa pengguna

Mengestimasi nilai tugas adalah salah satu cara memahami bagaimana Claude Code membantu orang menyelesaikan pekerjaan. Pendekatan lain adalah mengamati berapa banyak sesi yang berhasil, dan fitur apa dari sesi tersebut yang terkait dengan keberhasilan. Dalam semua indikator keberhasilan, kami melihat pola yang jelas: semakin tinggi tingkat profesional pengguna selama sesi, semakin besar kemungkinan sesi tersebut berhasil. Kebanyakan peningkatan terjadi di tingkat rendah, yaitu dari pemula ke menengah, sedangkan dari menengah ke ahli, peningkatannya lebih kecil.

Sebelum menganalisis fitur sesi yang berhasil, kita perlu mendefinisikan keberhasilan secara tepat. Kita tidak bisa mengamati hasil dunia nyata pengguna, dan tidak bisa langsung menanyakan apakah mereka berhasil menyelesaikan apa yang mereka inginkan dengan Claude. Oleh karena itu, kami mengandalkan dua metode pengukuran berbasis catatan sesi yang saling melengkapi. Pertama, "menilai keberhasilan", di mana classifier membaca seluruh catatan sesi dan memutuskan apakah pengguna mencapai tujuan awalnya, dengan kategori berhasil, sebagian berhasil, gagal, atau tanpa target jelas. Kemudian, dua classifier pendukung menilai kekuatan bukti keberhasilan tersebut, untuk memastikan "keberhasilan terverifikasi". Indikator keberhasilan ini mencari bukti yang dapat diverifikasi, seperti aktivitas git yang sesuai, misalnya commit dan pull request, pengujian yang lulus, dan pengakuan eksplisit dari pengguna. Mereka memberi skor dari "tanpa sinyal" hingga "beberapa sinyal keras" (skor 1 sampai 5). Sebaliknya, classifier sinyal kegagalan menilai bukti kesalahan, kegagalan pengujian, percobaan berulang, dan ketidakpuasan pengguna. Keberhasilan terverifikasi mensyaratkan kedua kondisi ini terpenuhi: sesi dinilai berhasil dan setidaknya ada satu sinyal keberhasilan yang keras. Analisis ini fokus pada tingkat keberhasilan atau kegagalan sesi, sehingga kami mengecualikan sesi yang dinilai "tanpa target jelas", yang sekitar 7,7% dari sampel lengkap.

Imbalan atas tingkat profesional

Lalu, sesi mana yang paling mudah berhasil? Hasilnya menunjukkan bahwa skor tingkat profesional yang kami buat sangat berpengaruh besar terhadap keberhasilan sesi.

Ada kekhawatiran bahwa tingkat profesional mungkin bukan faktor utama. Mungkin ahli hanya memilih tugas berbeda, atau berbeda dalam aspek lain. Dalam bagian ini, kami membandingkan sesi dengan tipe pekerjaan yang sama, nilai estimasi yang sama, bulan yang sama, topik yang sama, dari kelompok profesi yang sama, untuk sebagian mengatasi kekhawatiran ini, dan melihat bagaimana tingkat profesional mempengaruhi hasil.

> Tabel 2: Definisi keberhasilan dan kegagalan berdasarkan classifier. Contoh berasal dari dataset percakapan interaktif cerdas terbuka SWE-chat, yang telah diubah, dianonimkan, dan diringkas, lalu diberi label oleh classifier kami.

Dalam semua indikator keberhasilan, semakin tinggi tingkat profesional pengguna selama sesi, semakin besar kemungkinan keberhasilan. Sesi yang dinilai sebagai pemula menunjukkan tingkat keberhasilan "terverifikasi" sebesar 15%, dan tingkat keberhasilan minimal sebagian sebesar 77%. Sedangkan sesi dari tingkat menengah ke atas memiliki tingkat keberhasilan "terverifikasi" antara 28% hingga 33%, dan tingkat keberhasilan sebagian antara 91% hingga 92% (lihat Gambar 5).

Dalam setiap indikator, sebagian besar manfaat berasal dari peningkatan dari pemula ke menengah; dari menengah ke ahli, kurva melambat. Rincian analisis regresi di balik Gambar 5 ada di lampiran.

> Gambar 5: Hubungan antara tingkat profesional dan hasil sesi. Gambar ini menunjukkan hasil sesi berdasarkan lima tingkat penilaian profesional pengguna, dari pemula hingga ahli. Gambar kiri menampilkan semua sesi. Gambar tengah dan kanan hanya sesi yang mengalami masalah, yaitu yang memiliki sinyal kegagalan lebih dari 3, dan menunjukkan proporsi sesi yang mencapai berbagai definisi keberhasilan dan kegagalan. Setiap titik adalah rasio yang disesuaikan. Kami membandingkan sesi yang sama dalam mode kerja, nilai tugas, bulan, topik, dan tipe pengguna (apakah terkait perangkat lunak), untuk memperkirakan perbedaan antar tingkat profesional. Rincian regresi terkait ada di lampiran. Garis whisker menunjukkan interval kepercayaan rata-rata sampel, yang sebagian kecil tidak terlihat karena terlalu kecil. Gambar ini mengecualikan sesi yang dinilai "tanpa target jelas".

Dalam sesi yang menghadapi tantangan, pola serupa juga terlihat. Ketika sinyal kegagalan menunjukkan bukti nyata, kami anggap sesi tersebut "mengalami masalah". Ini bisa termasuk munculnya kesalahan, kegagalan pengujian, percobaan berulang, atau ketidakpuasan pengguna. Dalam sesi yang mengalami masalah, setelah mengendalikan semua variabel tersebut, proporsi keberhasilan "terverifikasi" meningkat dari 4% pada pemula menjadi 15% pada sesi ahli (lihat Gambar 5). Jika menggunakan indikator keberhasilan yang lebih longgar, kami menemukan bahwa tingkat keberhasilan minimal sebagian adalah 60% untuk pemula, dan 80-81% untuk pengguna tingkat menengah ke atas.

Kami juga melacak hubungan sebaliknya, yaitu antara tingkat profesional dan berbagai indikator kegagalan. Perlu diingat bahwa dalam analisis ini, sesi yang dinilai gagal adalah yang tidak mencapai bahkan keberhasilan sebagian. Jika sesi yang mengalami masalah dinilai gagal dan tidak menulis baris kode apa pun, kami sebut sebagai "ditinggalkan". Di antara pengguna yang dianggap pemula, sekitar 19% akhirnya ditinggalkan; sedangkan di kelompok lain, angka ini antara 5% hingga 7%. Artinya, pengguna dengan pengalaman paling sedikit lebih cenderung menyerah saat menghadapi kesulitan. Sebagian dari nilai profesional tampaknya terletak pada kemampuan untuk mengarahkan agen kembali ke jalur yang benar.

Profesi mungkin kurang penting dibandingkan tingkat profesional

Pengguna dari profesi terkait perangkat lunak memiliki tingkat keberhasilan "terverifikasi" sekitar 30%, sedangkan dari profesi lain sekitar 26%. Dalam sesi yang menghasilkan kode, yaitu yang setidaknya menambah atau mengubah satu baris kode, angka ini masing-masing 34% dan 29% (lihat Gambar 6). Jika menggunakan definisi keberhasilan yang lebih longgar, perbedaan ini akan semakin kecil. Dalam sesi yang menghasilkan kode, proporsi keberhasilan minimal sebagian dari kedua kelompok adalah 89% dan 88%. Perbedaan lima poin persentase ini tidak besar, dan selama tujuh bulan, tidak membesar maupun menyusut, meskipun tingkat keberhasilan keduanya meningkat. Dalam data kami, sepuluh kelompok profesi terbesar yang terkait perangkat lunak memiliki perbedaan keberhasilan sekitar tujuh poin persentase dari insinyur perangkat lunak. Kelompok profesi manajemen memiliki tingkat keberhasilan "terverifikasi" tertinggi, sedikit lebih tinggi dari kategori perangkat lunak/matematika. Tingkat keberhasilan yang lebih tinggi ini mungkin mencerminkan bahwa keterampilan manajemen dapat diterapkan dalam mengarahkan agen. Tapi, ini juga bisa dipengaruhi oleh cara pengukuran kami: verifikasi sangat bergantung pada konfirmasi eksplisit dari pengguna selama sesi, dan manajer mungkin lebih terbiasa mengekspresikan kepuasan mereka saat mendapatkan hasil yang diinginkan.

> Gambar 6: Tingkat keberhasilan dan kegagalan dalam sesi pengkodean berdasarkan profesi yang diprediksi. Gambar ini menunjukkan proporsi keberhasilan dan kegagalan yang ketat dalam sesi yang setidaknya menambah atau mengubah satu baris kode, berdasarkan profesi yang diprediksi pengguna. Gambar ini menampilkan sepuluh kelompok profesi terbesar. Setiap kelompok, termasuk pengguna terkait perangkat lunak/matematika (kategori komputer dan matematika dalam SOC), memiliki perbedaan tingkat keberhasilan kurang dari tujuh poin persentase. Garis error menunjukkan interval kepercayaan 95% berdasarkan perhitungan dari berbagai akun.

Pandangan ke depan

Hasil laporan ini menggambarkan sebuah gambaran yang sedang terbentuk: pemrograman agen cerdas memperbesar beberapa pengetahuan dan keterampilan, sekaligus menggantikan yang lain. Dalam sesi yang menghasilkan kode, tingkat keberhasilan dari berbagai profesi tidak jauh berbeda dari profesi terkait perangkat lunak. Tampaknya, pemrograman agen membuat latar belakang pemrograman menjadi kurang penting untuk keberhasilan menyelesaikan tugas pemrograman.

Pada saat yang sama, sesi yang berhasil lebih mungkin menunjukkan pengetahuan domain. Sesi dari para ahli memiliki tingkat keberhasilan "terverifikasi" lebih dari dua kali lipat sesi pemula. Ketika sesi mengalami masalah, proporsi pengguna pemula yang menyerah jauh lebih tinggi. Cara kolaborasi ini membuat gambaran ini semakin jelas: para ahli domain mampu menggunakan setiap instruksi untuk mengarahkan Claude menyelesaikan lebih banyak pekerjaan. Oleh karena itu, kemampuan untuk mengarahkan Claude menuju keberhasilan lebih banyak bergantung pada penguasaan pengetahuan domain, bukan kemampuan menulis kode. Siapa pun yang menguasai bidang tertentu saat ini mungkin dapat menyelesaikan pekerjaan teknis yang sebelumnya tidak bisa dilakukan. Sebaliknya, orang yang kurang memahami bidang tersebut, bahkan dengan alat yang sama, akan mendapatkan hasil yang jauh lebih sedikit. Dan, manfaat utamanya berasal dari kompetensi, bukan keahlian mendalam. Memiliki pemahaman operasional tentang bidang tertentu sudah cukup untuk memperoleh sebagian besar manfaat; keahlian mendalam hanya menambah sedikit keuntungan ekstra.

Temuan ini masih bersifat awal. Seperti kebanyakan studi kami, kami tidak dapat mengukur hasil dunia nyata, misalnya, apakah kode yang dihasilkan dalam sesi tersebut kemudian digunakan atau dibuang, atau apakah menghasilkan manfaat ekonomi. Selain itu, penggunaan non-interaktif yang tidak termasuk dalam laporan ini, juga merupakan bagian besar dari aktivitas. Mengembangkan kerangka kerja untuk mengukur penggunaan semacam ini adalah salah satu pekerjaan masa depan. Selain itu, semua klasifikasi sesi bergantung pada model yang membaca catatan sesi. Di lampiran, kami tunjukkan bahwa classifier ini tetap konsisten dengan data telemetri independen yang menunjukkan hasil yang diharapkan, dan sebagian besar sesuai dengan penilaian model referensi yang kuat. Tapi, dalam skenario skala besar, memverifikasi classifier ini tetap sulit; sesi Claude Code sendiri menambah tantangan karena panjang dan kompleksitasnya, sehingga sulit dijadikan patokan manusia.

Seiring model, pengguna, dan pembagian kerja di antara keduanya terus berkembang, gambaran dalam laporan ini juga akan terus diperbarui. Kami berharap indikator ini dapat membantu kita mengikuti perubahan besar yang sedang berlangsung. Misalnya, jika di masa depan imbalan dari tingkat profesional mulai menurun, itu akan menunjukkan bahwa model mulai menyediakan penilaian penting yang sebelumnya hanya dilakukan manusia, dan manfaat alat ini akan meluas dari para profesional ke masyarakat umum. Jika tingkat keberhasilan pengguna di luar profesi perangkat lunak terus meningkat, itu bisa berarti bahwa produksi perangkat lunak menjadi bagian dari pekerjaan umum di berbagai bidang, bukan lagi produk dari satu profesi saja. Perubahan ini akan mempengaruhi siapa yang dapat memperoleh manfaat dari pemrograman agen, dan seberapa besar manfaatnya, serta akan mempengaruhi kemampuan yang paling dihargai di pasar tenaga kerja.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan