Siapa yang paling pandai menggunakan Claude Code? Jawabannya mungkin bukan programmer

> Judul asli: Agentic coding and persistent returns to expertise
> Penulis asli: Anthropoic
> Diterjemahkan: Peggy
>

Catatan editor: Laporan ini didasarkan pada sekitar 400.000 sesi Claude Code, membahas bagaimana alat pemrograman AI sedang mengubah hubungan antara manusia dan kode.

Temuan inti dari artikel ini adalah: dalam pemrograman agen, manusia sebagian besar menentukan "apa yang dilakukan", sementara Claude bertanggung jawab atas "bagaimana melakukannya". Pengguna memegang sebagian besar keputusan perencanaan, sedangkan Claude menangani sebagian besar eksekusi. Dengan kata lain, AI sedang mengambil alih proses pembuatan kode, pengeditan file, menjalankan perintah, debugging, dan tahap implementasi lainnya, tetapi penetapan tujuan dan penilaian hasil tetap bergantung pada manusia.

Yang lebih penting lagi, efektivitas penggunaan Claude Code tidak hanya bergantung pada apakah pengguna adalah programmer. Laporan menunjukkan bahwa dalam tugas menghasilkan kode, pengguna dari profesi non-teknis seperti hukum, keuangan, manajemen, dan penelitian ilmiah sudah mendekati tingkat keberhasilan insinyur perangkat lunak. Faktor yang benar-benar mempengaruhi hasil adalah apakah pengguna memahami masalah yang ingin diselesaikan.

Ini berarti, AI dalam pemrograman menurunkan hambatan implementasi, bukan hambatan penilaian. Di masa depan, orang yang memahami bisnis, konteks, mampu mengajukan kebutuhan secara jelas dan menilai hasilnya, mungkin akan lebih mampu memanfaatkan AI dengan baik daripada mereka yang hanya mampu menulis kode. AI tidak secara otomatis menggantikan pengetahuan domain, malah akan memperbesar nilai dari pengetahuan tersebut.

Berikut adalah teks asli:

Temuan Kunci

Berdasarkan penelitian sebelumnya, kami mengusulkan sebuah kerangka kerja untuk mempelajari pemrograman agen interaktif. Kerangka ini didasarkan pada analisis perlindungan privasi dari sekitar 400.000 sesi Claude Code antara Oktober 2025 dan April 2026, menilai komposisi tugas, cara kolaborasi manusia dan AI, serta tingkat keberhasilan tugas.

Dalam satu sesi tipikal, manusia bertanggung jawab atas sebagian besar keputusan perencanaan, yaitu menentukan "apa yang harus dilakukan"; Claude bertanggung jawab atas sebagian besar keputusan eksekusi, yaitu menentukan "bagaimana melakukannya". Semakin tinggi keahlian pengguna di bidang tertentu, semakin besar pula volume pekerjaan yang dipicu oleh setiap instruksi yang diberikan kepada Claude. Dalam tugas pengkodean, tingkat keberhasilan rata-rata dari berbagai kelompok profesi—yaitu apakah mereka menyelesaikan apa yang awalnya ingin dilakukan pengguna, dan ada bukti verifikasi seperti pengujian dan pengiriman kode—hampir setara dengan insinyur perangkat lunak.

Semakin tinggi kemampuan profesional pengguna, semakin besar kemungkinan sesi berakhir dengan keberhasilan. Namun, perbedaan antara pengguna tingkat menengah dan ahli tidak terlalu besar. Dalam tujuh bulan pengamatan kami, proporsi sesi debugging menurun hampir separuh, dan cara penggunaannya beralih ke penggunaan agen yang lebih end-to-end: menyebarkan dan menjalankan kode, menganalisis data, serta menulis dokumen non-kode.

Dalam periode tersebut, nilai dari tugas-tugas tipikal hampir meningkat di semua jenis pekerjaan. Kami memperkirakan nilai tugas ini dengan membandingkan dengan data lowongan pekerjaan freelance, dan hasilnya menunjukkan kenaikan rata-rata sekitar 25%.

Pendahuluan

Pemrograman agen sedang berkembang pesat. Sejak akhir 2025, proporsi proyek di GitHub yang melibatkan aktivitas agen pemrograman telah berlipat ganda, dan pengguna Claude Code kini rata-rata menggunakan alat ini selama 20 jam per minggu. Apakah orang tanpa pengalaman formal dalam pemrograman dapat berhasil mengarahkan agen untuk menyelesaikan pekerjaan teknis yang kompleks? Bagaimana adopsi cepat dan peningkatan kemampuan alat ini akan mempengaruhi pekerjaan berbasis pengetahuan yang lebih luas? Kami belum dapat memberikan jawaban lengkap, tetapi dari data penggunaan Claude Code, kami dapat melihat beberapa sinyal awal.

Laporan ini didasarkan pada analisis perlindungan privasi dari sekitar 235.000 pengguna dan sekitar 400.000 sesi interaktif selama periode Oktober 2025 hingga April 2026, menyediakan bukti tentang cara penggunaan Claude Code secara nyata. Ini melanjutkan penelitian sebelumnya tentang indikator otonomi dalam sesi Claude Code dan bagaimana Claude Code mengubah cara kerja internal di Anthropic. Artikel ini akan memperkenalkan sebuah kerangka untuk mendeskripsikan penggunaan asisten AI interaktif: apa yang dilakukan orang, siapa yang melakukan, dan apakah pekerjaan tersebut berhasil. Kami fokus pada penggunaan Claude Code melalui antarmuka baris perintah (CLI), Claude.ai, atau aplikasi desktop Claude. Dengan melacak bagaimana penggunaan pemrograman agen berubah seiring peningkatan kemampuan model, kita dapat memahami dampaknya terhadap profesional pemrograman dan pasar tenaga kerja pekerja berbasis pengetahuan.

Apa yang terjadi di Claude Code mungkin menjadi indikator masa depan pekerjaan berbasis pengetahuan: agen akan semakin menyatu ke dalam pekerjaan non-pemrograman. Kami menemukan bahwa Claude sedang menangani tugas yang lebih kompleks dan bernilai lebih tinggi. Pada saat yang sama, ada pembagian kerja yang jelas dalam pemrograman agen: manusia menentukan apa yang akan dibangun, agen menentukan bagaimana membangunnya.

Kami juga menemukan bukti bahwa yang benar-benar memperbesar efektivitas alat adalah pengetahuan domain, bukan keahlian pemrograman. Terutama, para ahli bidang lebih mudah berhasil dan lebih cepat pulih dari kesalahan atau kesalahpahaman. Namun, perbedaan antara pengguna tingkat menengah dan ahli tidak terlalu besar. Ini menunjukkan bahwa selama seseorang cukup mahir di bidang tertentu, mereka hampir dapat menggunakan alat ini secara efektif seperti seorang pakar mendalam.

Temuan ini memungkinkan kami untuk mengamati potensi perubahan di pasar tenaga kerja. Dalam data kami, keberhasilan bergantung pada apakah orang memahami masalah yang ingin diselesaikan, bukan pada pelatihan pemrograman yang mereka miliki. Jika pola ini berlaku secara luas, itu berarti bahwa meskipun alat pemrograman agen mungkin menyerap sebagian pekerjaan yang berorientasi pada implementasi, mereka juga akan memberi insentif kepada orang yang benar-benar memahami masalah yang mereka hadapi. Pemrograman agen bukanlah pengganti pengetahuan domain. Sebaliknya, semakin banyak pemahaman yang dimiliki pekerja tentang bidang tertentu, semakin banyak pekerjaan berkualitas tinggi yang dapat diselesaikan agen. Semakin besar pemahaman tersebut, semakin besar pula manfaatnya.

Pembagian kerja

Apa yang dilakukan orang dengan Claude Code

Untuk memahami bagaimana orang menggunakan Claude Code, kami mengklasifikasikan setiap sesi ke dalam salah satu dari sembilan mode kerja, yaitu aktivitas tunggal yang paling menggambarkan tujuan sesi tersebut. Empat mode langsung terkait dengan penulisan atau pemeliharaan kode: membangun sesuatu yang baru, memperbaiki yang rusak, menguji kode, dan mengatur agen lain atau pipeline otomatis. Mode lain meliputi operasi perangkat lunak, termasuk penyebaran, konfigurasi, menjalankan pipeline, dan pemantauan sistem. Dua mode lainnya lebih berkaitan dengan memahami "apa yang harus dilakukan": memahami bagaimana sistem yang ada bekerja, dan merencanakan perubahan sebelum melakukan modifikasi. Dua mode terakhir tidak terkait kode secara langsung, atau kode hanya sebagai bagian pendukung akhir: menganalisis data, dan berkomunikasi melalui presentasi dan dokumen berbasis teks lainnya.

Sekitar 56% dari sesi terdiri dari penulisan kode (25%), perbaikan kode (26%), atau pengujian dan pengaturan kode (5%). Operasi perangkat lunak menyumbang 17%, perencanaan atau eksplorasi 14%, analisis data dan penulisan teks sekitar 13% (lihat Gambar 1).

> Gambar 1: Sembilan mode kerja. Setiap sesi interaktif diklasifikasikan ke mode kerja yang paling menggambarkan tujuannya.

Kami pertama-tama membiarkan model membaca catatan sesi, lalu mengklasifikasikan setiap sesi; kemudian menggunakan alat analisis perlindungan privasi kami, membandingkan hasil klasifikasi dengan data telemetri otomatis yang merekam setiap sesi, termasuk apakah ada penambahan atau penghapusan baris kode. Kedua sumber ini menunjukkan tingkat konsistensi yang tinggi. Misalnya, dalam sesi yang ditandai classifier sebagai pembuatan atau modifikasi kode, lebih dari 90% dari data telemetri juga menunjukkan adanya perubahan kode. Detailnya ada di lampiran.

Siapa yang membuat keputusan

Seberapa kuat autonomi Claude Code? Penilaian kemampuan menunjukkan bahwa batas atasnya sudah sangat tinggi dan terus meningkat. Misalnya, dalam pengujian benchmark seperti evaluasi METR, model terbaru kini mampu menyelesaikan secara mandiri tugas perangkat lunak yang sebelumnya membutuhkan manusia berjam-jam, dan mampu mengatasi hambatan secara mandiri selama prosesnya. Tapi, bagaimana kenyataannya dalam penggunaan nyata? Di sini, kami fokus pada berapa banyak manusia dan Claude yang masing-masing memegang kendali dalam memberi arahan.

Kami meneliti dari dua sudut pandang. Pertama, sejauh mana orang menyerahkan pengambilan keputusan kepada Claude; kedua, berapa banyak tindakan yang mereka berikan kepada Claude. Untuk memahami pembagian keputusan dalam satu sesi, kami membangun classifier berbasis privasi yang mengidentifikasi semua keputusan penting, dan membaginya menjadi keputusan perencanaan dan keputusan eksekusi. Keputusan perencanaan meliputi apa yang harus dilakukan, metode yang digunakan, apa yang dianggap selesai; keputusan eksekusi meliputi file mana yang diubah, kode apa yang ditulis, bahasa apa yang digunakan, dan perintah apa yang dijalankan. Kemudian, classifier ini akan mengaitkan setiap keputusan kepada Claude atau pengguna, dan menghasilkan dua angka: proporsi keputusan perencanaan yang dilakukan pengguna, dan proporsi keputusan eksekusi yang dilakukan pengguna.

Rata-rata, manusia membuat sekitar 70% keputusan perencanaan, tetapi hanya 20% keputusan eksekusi (lihat Gambar 2). Dalam praktiknya, pemrograman agen menunjukkan pembagian kerja yang jelas: manusia menentukan apa yang akan dibangun, agen menentukan bagaimana membangunnya.

Untuk memahami tingkat delegasi tindakan dalam satu sesi, kami tidak melihat isi, tetapi struktur sesi. Sesi Claude Code terdiri dari interaksi bolak-balik antara Claude dan pengguna: pengguna mengirim prompt, Claude melakukan aksi; kemudian pengguna mengirim prompt berikutnya, dan seterusnya. Dalam sesi tipikal, jumlah putaran sekitar empat. Dari data kami dari Oktober hingga April, setiap kali pengguna mengirim satu prompt, rata-rata Claude akan melakukan sekitar 10 aksi, bahkan kadang lebih dari 100. Dalam setiap putaran, Claude membaca file, mengedit kode, menjalankan perintah, dan rata-rata mengeluarkan sekitar 2400 kata.

Jumlah pekerjaan yang diselesaikan Claude antara dua pemeriksaan pengguna sangat bergantung pada siapa yang memegang kendali pengambilan keputusan. Ketika pengguna mempertahankan kendali atas proses eksekusi—yaitu mereka melakukan lebih dari 80% keputusan eksekusi—Claude melakukan sekitar 8 aksi per putaran. Sebaliknya, jika Claude memegang kendali perencanaan—lebih dari 80% keputusan perencanaan—jumlah aksi tertinggi yang dilakukan Claude adalah sekitar 16.

> Gambar 2: Proporsi Claude dalam keputusan perencanaan dan eksekusi. Gambar ini menunjukkan distribusi proporsi keputusan perencanaan (apa yang dilakukan) dan eksekusi (bagaimana melakukannya) yang dikaitkan dengan Claude, dalam berbagai sesi. Dalam sesi tipikal, pengguna membuat sekitar 70% keputusan perencanaan, dan Claude melakukan sekitar 80% keputusan eksekusi.

Tingkat profesional

Berdasarkan catatan setiap sesi, Claude menilai tingkat profesional pengguna dalam tugas tersebut dengan skala lima tingkat, dari pemula hingga ahli. Klasifikasi tingkat profesional ini memperhatikan tiga sinyal: tingkat ketepatan instruksi pengguna, apa yang diminta pengguna untuk diverifikasi Claude, dan apakah pengguna lebih sering mengoreksi Claude atau sebaliknya. Perlu dicatat bahwa tingkat profesional ini berbeda sama sekali dari posisi atau kemampuan umum, dan yang penting adalah ini bersifat spesifik untuk tugas tertentu. Seorang insinyur berpengalaman yang pertama kali bertanya tentang Rust, dalam tugas Rust tersebut mungkin tetap pemula. Seorang akuntan yang belum pernah menggunakan Python, tetapi mampu memberi tahu Claude aturan rekonsiliasi tertentu dalam skrip Python dan mampu menangkap batasan saat penutupan bulan, bisa dianggap sebagai ahli dalam tugas tersebut.

Tabel berikut menunjukkan bagaimana kami mendefinisikan tingkat profesional dalam classifier, dan contoh permintaan dari dataset SWE-chat yang dipublikasikan. Percakapan yang diklasifikasikan sebagai "pemula" biasanya berisi instruksi umum tanpa menunjukkan pengetahuan domain tertentu; sedangkan percakapan "ahli" menunjukkan pemahaman mendalam tentang basis kode dan lingkungan teknis.

> Tabel 1: Klasifikasi tingkat profesional. Contoh ini adalah percakapan nyata yang telah diubah, dianonimkan, dan dipadatkan, lalu diberi label oleh classifier kami. Banyak contoh berasal dari dataset percakapan pemrograman agen terbuka SWE-chat.

Kami mengukur hubungan antara tingkat profesional dan jumlah output serta aktivitas yang dihasilkan Claude per prompt. Dalam sesi pemula, setiap prompt memicu sekitar 5 aksi dan sekitar 600 kata output; sedangkan dalam sesi ahli, panjang rantai aksi lebih dari dua kali lipat, sekitar 12 aksi, dan outputnya mencapai sekitar 3200 kata, lima kali lipat dari yang pertama (lihat Gambar 3). Perbedaan ini muncul di semua jenis pekerjaan dan semua rentang nilai tugas.

Indikator ini melengkapi studi kami sebelumnya tentang otonomi Claude Code. Penelitian sebelumnya melacak durasi operasional agen dan seberapa sering pengguna menyetujui otomatis tindakannya. Sebaliknya, indikator atribusi keputusan kami menangkap siapa yang membuat keputusan substantif selama sesi, sementara jumlah output dan aksi yang dipicu oleh setiap prompt mengukur sejauh mana instruksi manusia dapat memicu aktivitas otonom Claude.

> Gambar 3: Semakin profesional pengguna, Claude menyelesaikan lebih banyak pekerjaan per prompt. Semakin tinggi tingkat profesional, semakin banyak aksi (kiri) dan output teks (kanan) yang dihasilkan Claude per prompt. Kotak menunjukkan kuartil, garis tengah adalah median. Garis whisker menunjukkan persentil ke-5 hingga ke-95. Titik putih adalah rata-rata geometris. Kedua tren meningkat ini signifikan secara statistik (p < 0,001), dan perbedaan antar tingkat profesional juga signifikan. Setelah mengendalikan mode kerja, nilai tugas, bulan, profesi, dan seri model, serta mengelompokkan pengguna secara statistik, tren ini tetap signifikan: setiap kenaikan satu tingkat profesional meningkatkan jumlah aksi sebesar 9%, dan output sebesar 13%.

Siapa yang Menggunakan Claude Code dan Untuk Apa

Pengguna

Untuk memahami siapa yang melakukan pekerjaan ini, kami memperkirakan profesi setiap pengguna berdasarkan catatan sesi, dan memetakannya ke salah satu dari 23 kategori utama dalam sistem klasifikasi profesi Biro Statistik Tenaga Kerja AS (SOC). Classifier ini hanya menggunakan sinyal berikut: konteks proyek yang dimuat saat sesi dimulai, nama dan struktur file, referensi bahan atau produk yang digunakan, seperti dokumen hukum, data klinis, laporan keuangan, materi kursus, dan sebagainya, serta kosakata yang digunakan pengguna. Classifier ini secara eksplisit dilarang menganggap "menulis kode" sebagai bukti bahwa pengguna berprofesi sebagai programmer. Hanya jika ada sinyal yang jelas menunjukkan pekerjaan terkait perangkat lunak atau data, sesi akan diklasifikasikan ke kategori SOC terkait pemrograman, yaitu "profesi komputer dan matematika". Misalnya, jika seorang pengacara membuat skrip untuk memeriksa otomatis kekurangan klausul dalam kontrak, meskipun sesi tersebut terutama tentang penulisan perangkat lunak, tetap akan diklasifikasikan sebagai pekerjaan hukum. Jika tidak ada sinyal tentang profesi pengguna, sesi tidak diklasifikasi.

Kami mampu memperkirakan profesi sekitar 70% dari sesi. Di antara sesi yang dapat diklasifikasi, "profesi komputer dan matematika" adalah yang terbesar, tidak mengherankan karena mencakup sebagian besar pekerjaan terkait perangkat lunak. Selanjutnya adalah bidang bisnis dan keuangan, seni dan media, manajemen, serta ilmu kehidupan, fisika, dan ilmu sosial. Di samping itu, kelompok profesi non-perangkat lunak yang paling cepat berkembang adalah manajemen, penjualan, dan hukum.

Pekerjaan

Dari Oktober 2025 hingga April 2026, komposisi pekerjaan yang dilakukan dengan Claude Code mengalami perubahan signifikan. Perubahan paling mencolok adalah penurunan sesi yang digunakan untuk memperbaiki kode rusak dari 33% menjadi 19% (lihat Gambar 4). Sebagai gantinya, ada peningkatan pekerjaan yang berfokus pada kode. Proporsi operasi perangkat lunak meningkat dari 14% menjadi 21%. Penulisan dan analisis data meningkat sekitar dua kali lipat, dari sekitar 10% menjadi sekitar 20%.

Nilai dari tugas-tugas ini juga meningkat. Kami memperkirakan nilai ekonomi setiap sesi dengan memperbandingkan biaya pekerjaan serupa di pasar freelance, dan menyesuaikan dengan dataset lowongan pekerjaan nyata. Berdasarkan indikator ini, nilai rata-rata sesi meningkat sekitar 27% dari Oktober hingga April. Peningkatan ini terjadi di berbagai jenis pekerjaan. Nilai tugas membangun, mengoperasikan, dan memperbaiki masing-masing meningkat sekitar 43%, 34%, dan 32%. Estimasi harga ini cukup kasar, jadi kami menggunakannya terutama untuk membandingkan tren perubahan antar tugas dari waktu ke waktu, bukan sebagai nilai dolar langsung. Rincian tentang cara membangun estimasi nilai tugas ada di lampiran.

> Gambar 4: Perubahan komposisi dan nilai pekerjaan Claude Code dari Oktober 2025 hingga April 2026. Gambar ini menunjukkan proporsi berbagai mode kerja selama tujuh bulan. Proporsi sesi yang digunakan untuk memperbaiki kode rusak turun dari 33% menjadi 19%, sementara operasi perangkat lunak, analisis data, dan penulisan dokumen meningkat.

Keberhasilan bergantung pada apa yang dibawa pengguna

Mengestimasi nilai tugas adalah salah satu cara memahami bagaimana Claude Code membantu orang menyelesaikan pekerjaan. Pendekatan lain adalah mengamati berapa banyak sesi yang berhasil dan fitur apa dari sesi tersebut yang berhubungan dengan keberhasilan. Dalam semua indikator keberhasilan, kami menemukan pola yang jelas: semakin tinggi tingkat profesional pengguna dalam sesi, semakin besar kemungkinan sesi tersebut berhasil. Kebanyakan peningkatan terjadi di tingkat pemula ke menengah, artinya perbedaan antara pemula dan menengah lebih besar daripada antara menengah dan ahli.

Sebelum menganalisis fitur sesi yang berhasil, kita harus mendefinisikan keberhasilan secara tepat. Kita tidak bisa mengamati hasil nyata di dunia nyata, maupun menanyakan langsung kepada pengguna apakah mereka berhasil menyelesaikan apa yang mereka inginkan. Oleh karena itu, kami mengandalkan dua metode pengukuran berbasis catatan sesi yang saling melengkapi. Pertama, "penilaian keberhasilan" yang dilakukan classifier setelah membaca seluruh catatan sesi, menentukan apakah pengguna mencapai tujuan awalnya, dengan opsi keberhasilan lengkap, sebagian, gagal, atau tanpa target jelas. Kemudian, dua classifier pendukung menilai kekuatan bukti keberhasilan tersebut, untuk memastikan "keberhasilan terverifikasi". Sinyal keberhasilan ini dicari melalui bukti yang dapat diverifikasi, seperti aktivitas git yang sesuai, termasuk commit dan pull request, pengujian yang lulus, dan pengakuan eksplisit dari pengguna. Sesi ini akan dinilai dari "tanpa sinyal", "sinyal lemah" (skor 1), hingga "beberapa sinyal kuat" (skor 5). Sebaliknya, classifier sinyal kegagalan menilai bukti kesalahan, kegagalan pengujian, percobaan berulang, dan ketidakpuasan pengguna. Keberhasilan terverifikasi memerlukan kedua kondisi ini terpenuhi: sesi dinilai berhasil dan setidaknya ada satu sinyal keberhasilan yang kuat. Analisis berikut ini fokus pada tingkat keberhasilan atau kegagalan sesi, sehingga kami mengecualikan sesi yang dinilai "tanpa target jelas", yang sekitar 7,7% dari total sampel.

Imbalan dari tingkat profesional

Lalu, sesi mana yang paling mudah berhasil? Hasilnya menunjukkan bahwa skor tingkat profesional yang kami gunakan sangat berpengaruh besar terhadap keberhasilan sesi.

Ada kekhawatiran bahwa tingkat profesional bukanlah faktor utama. Mungkin ahli hanya memilih tugas berbeda, atau ada faktor lain yang membedakan mereka. Dalam bagian ini, kami membandingkan sesi dengan jenis pekerjaan yang sama, nilai estimasi yang sama, bulan yang sama, topik yang sama, dari kelompok profesi yang sama, untuk melihat bagaimana tingkat profesional mempengaruhi hasil.

> Tabel 2: Definisi keberhasilan dan kegagalan yang dihasilkan classifier. Contoh ini diambil dari dataset percakapan interaktif AI terbuka SWE-chat, yang telah diubah, dianonimkan, dan diringkas oleh classifier kami.

Dalam semua indikator keberhasilan, semakin tinggi tingkat profesional pengguna dalam sesi, semakin besar kemungkinan keberhasilan. Sesi yang dinilai sebagai pemula menunjukkan tingkat keberhasilan "terverifikasi" sebesar 15%, dan tingkat keberhasilan minimal "sebagian" sebesar 77%. Sedangkan sesi dengan tingkat menengah ke atas memiliki tingkat keberhasilan terverifikasi antara 28% hingga 33%, dan tingkat keberhasilan sebagian antara 91% hingga 92% (lihat Gambar 5).

Dalam setiap indikator, sebagian besar manfaat berasal dari peningkatan dari pemula ke menengah; dari menengah ke ahli, kurva pertumbuhan melambat. Rincian analisis regresi di balik Gambar 5 ada di lampiran.

> Gambar 5: Hubungan antara tingkat profesional dan hasil sesi. Gambar ini menunjukkan hasil sesi berdasarkan lima tingkat profesional dari pemula hingga ahli. Gambar kiri menampilkan semua sesi. Gambar tengah dan kanan hanya sesi yang mengalami masalah, yaitu yang memiliki skor sinyal kegagalan lebih dari 3, dan menunjukkan proporsi keberhasilan dan kegagalan yang berbeda. Titik-titik adalah rasio yang telah disesuaikan. Kami membandingkan sesi yang sama dalam mode kerja, nilai tugas, bulan, topik, dan jenis pengguna (apakah terkait perangkat lunak), untuk memperkirakan perbedaan antar tingkat profesional. Rincian regresi terkait ada di lampiran. Garis whisker menunjukkan interval kepercayaan rata-rata sampel, sebagian besar tidak terlihat karena sangat kecil. Gambar ini tidak termasuk sesi yang dinilai "tanpa target jelas".

Dalam sesi yang menghadapi tantangan, juga terlihat pola gradien serupa. Ketika sinyal kegagalan menunjukkan bukti kegagalan yang terverifikasi, kami anggap sesi tersebut "mengalami masalah". Ini bisa termasuk munculnya kesalahan, kegagalan pengujian, percobaan berulang, atau ketidakpuasan pengguna. Dalam sesi yang mengalami masalah, setelah mengendalikan semua variabel tersebut, proporsi keberhasilan terverifikasi meningkat dari 4% pada sesi pemula menjadi 15% pada sesi ahli (lihat Gambar 5). Jika menggunakan indikator keberhasilan yang lebih longgar, kami temukan bahwa minimal 60% sesi pemula berhasil sebagian, dan antara 80% hingga 81% sesi dari kelompok menengah ke atas.

Kami juga melacak hubungan sebaliknya, yaitu antara tingkat profesional dan berbagai indikator kegagalan. Perlu diingat bahwa dalam analisis ini, sesi yang dinilai gagal adalah yang tidak mencapai keberhasilan parsial sama sekali. Jika sesi mengalami masalah dan tidak menulis kode sama sekali, kami sebut sebagai "ditinggalkan". Dalam sesi yang tampaknya dilakukan oleh pengguna pemula, sekitar 19% akhirnya ditinggalkan; sedangkan di kelompok lain, angka ini antara 5% hingga 7%. Artinya, pengguna dengan pengalaman paling sedikit lebih cenderung menyerah saat menghadapi kesulitan. Sebagian dari nilai profesional ini tampaknya terletak pada kemampuan untuk mengarahkan agen kembali ke jalur yang benar.

Profesi mungkin tidak sepenting tingkat profesional

Pengguna dari profesi terkait perangkat lunak memiliki tingkat keberhasilan terverifikasi sekitar 30%, sedangkan dari profesi lain sekitar 26%. Dalam sesi yang menghasilkan kode, yaitu yang setidaknya menambah atau mengubah satu baris kode, angka ini masing-masing 34% dan 29% (lihat Gambar 6). Jika menggunakan definisi keberhasilan yang lebih longgar, perbedaan antara profesi terkait perangkat lunak dan lainnya akan semakin kecil. Dalam sesi yang menghasilkan kode, proporsi keberhasilan minimal "sebagian" adalah 89% dan 88%. Perbedaan lima poin persentase ini tidak besar, dan selama tujuh bulan terakhir, tidak menunjukkan tren membesar maupun mengecil, meskipun tingkat keberhasilan keduanya meningkat. Di dalam dataset kami, sepuluh kelompok profesi terbesar yang terkait perangkat lunak memiliki perbedaan tingkat keberhasilan dengan insinyur perangkat lunak kurang dari tujuh poin persentase. Profesi manajemen menunjukkan tingkat keberhasilan terverifikasi tertinggi, sedikit lebih tinggi dari profesi terkait perangkat lunak. Tingkat keberhasilan yang lebih tinggi ini mungkin mencerminkan bahwa keterampilan manajemen dapat diterapkan dalam mengarahkan agen. Namun, ini juga bisa dipengaruhi oleh cara pengukuran kami: verifikasi sangat bergantung pada konfirmasi eksplisit dari pengguna, dan manajer mungkin lebih terbiasa mengekspresikan keinginan mereka saat mendapatkan hasil yang diinginkan.

> Gambar 6: Tingkat keberhasilan dan kegagalan berdasarkan profesi yang diperkirakan. Gambar ini menunjukkan proporsi keberhasilan dan kegagalan dalam sesi yang setidaknya menambah atau mengubah satu baris kode, berdasarkan profesi yang diperkirakan pengguna, dengan definisi keberhasilan yang ketat, termasuk keberhasilan terverifikasi. Gambar ini menampilkan sepuluh kelompok profesi terbesar. Setiap kelompok memiliki perbedaan tingkat keberhasilan dengan pengguna terkait perangkat lunak/SOC kategori "profesi komputer dan matematika" kurang dari tujuh poin persentase. Garis error menunjukkan interval kepercayaan 95% berdasarkan perhitungan dari berbagai akun.

Pandangan ke depan

Hasil laporan ini menggambarkan gambaran yang sedang terbentuk: pemrograman agen memperbesar beberapa pengetahuan dan keterampilan, sekaligus menggantikan beberapa lainnya. Dalam sesi yang menghasilkan kode, tingkat keberhasilan dari berbagai profesi tidak jauh berbeda dari profesi terkait perangkat lunak. Tampaknya, pemrograman agen membuat latar belakang pemrograman menjadi kurang penting untuk keberhasilan menyelesaikan tugas pemrograman.

Pada saat yang sama, sesi yang berhasil lebih cenderung menunjukkan pengetahuan domain. Sesi yang dinilai sebagai ahli memiliki tingkat keberhasilan terverifikasi lebih dari dua kali lipat sesi pemula. Ketika sesi mengalami masalah, tingkat pengguna pemula yang menyerah jauh lebih tinggi. Cara kolaborasi ini memperjelas gambaran: para ahli bidang mampu memanfaatkan setiap instruksi untuk mengarahkan Claude menyelesaikan lebih banyak pekerjaan. Oleh karena itu, kemampuan untuk mengarahkan Claude menuju keberhasilan lebih banyak bergantung pada penguasaan bidang tertentu, bukan kemampuan menulis kode. Siapa pun yang menguasai bidang tersebut saat ini dapat menyelesaikan pekerjaan teknis yang sebelumnya tidak mampu dilakukan. Sebaliknya, mereka yang kurang memahami bidang tersebut, meskipun menggunakan alat yang sama, hasilnya jauh lebih sedikit. Dan, manfaat utamanya berasal dari kompetensi, bukan dari keahlian mendalam. Memiliki pemahaman operasional tentang bidang tertentu sudah cukup untuk mendapatkan sebagian besar manfaat; keahlian mendalam hanya menambah sedikit keuntungan ekstra.

Temuan ini masih bersifat awal. Seperti kebanyakan studi kami, kami tidak dapat mengukur hasil nyata di dunia nyata, misalnya apakah kode yang ditulis dalam sesi tersebut kemudian digunakan atau dibuang, atau apakah menghasilkan manfaat ekonomi. Selain itu, laporan ini mengecualikan penggunaan non-interaktif, yang merupakan bagian besar dari aktivitas secara keseluruhan. Mengembangkan kerangka kerja untuk mengukur penggunaan semacam ini adalah salah satu fokus pekerjaan di masa depan. Selanjutnya, semua klasifikasi sesi bergantung pada model yang membaca catatan sesi. Di lampiran, kami tunjukkan bahwa classifier dan data telemetri independen tetap konsisten dalam prediksi, dan umumnya sejalan dengan penilaian model referensi yang kuat. Namun, dalam skala besar, memverifikasi classifier tetap menantang; sesi Claude Code sendiri menambah kompleksitas karena panjang dan kerumitannya, sehingga sulit dijadikan patokan manual.

Seiring model, pengguna, dan pembagian kerja di antara keduanya terus berkembang, gambaran dalam laporan ini juga akan terus diperbarui. Kami berharap indikator ini dapat membantu kita mengikuti perubahan besar yang sedang berlangsung. Misalnya, jika di masa depan tingkat profesional mulai menunjukkan pengembalian yang menurun, itu akan menunjukkan bahwa model mulai menyediakan penilaian utama yang sebelumnya dilakukan pengguna sendiri, dan manfaat alat ini akan meluas dari para profesional bidang tertentu ke masyarakat umum. Jika proporsi pengguna di luar profesi perangkat lunak yang berhasil menyelesaikan sesi pemrograman terus meningkat, itu bisa berarti bahwa produksi perangkat lunak menjadi bagian dari pekerjaan umum di berbagai bidang, bukan lagi produk dari satu profesi saja. Perubahan ini akan mempengaruhi siapa yang dapat memperoleh manfaat dari pemrograman agen, dan seberapa besar manfaat tersebut, serta akan mempengaruhi kemampuan yang paling dihargai di pasar tenaga kerja.

[Link asli]

Klik untuk mengetahui posisi yang dibuka oleh BlockBeats di bidang ini

Selamat bergabung dengan komunitas resmi BlockBeats:
Telegram Langganan: https://t.me/theblockbeats
Telegram Grup Diskusi: https://t.me/BlockBeats_App
Akun resmi Twitter: https://twitter.com/BlockBeatsAsia

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan