Penelitian Anthropic: Keahlian domain lebih menentukan efektivitas pembuatan Claude Code daripada kemampuan pemrograman

Analisis Anthropic terhadap sekitar 400.000 sesi interaksi Claude Code, sekitar 235.000 pengguna, menemukan bahwa: kunci keberhasilan atau kegagalan coding AI bukanlah seberapa mahir menulis kode, melainkan kedalaman pemahaman terhadap bidang masalah yang sedang diselesaikan.
(Latar belakang: Anthropic merilis penelitian ekonomi Claude Code! Potensi penghematan biaya agen AI mencapai 4 miliar)
(Tambahan latar belakang: Anthropic meluncurkan dashboard dampak AI: masukkan profesi, cek berapa banyak pekerjaanmu yang diambil alih AI dalam hitungan detik?)

Daftar isi artikel

Toggle

  • Seorang akuntan, bagaimana menjadi "ahli" menurut pandangan Claude
  • Setelah melakukan kesalahan, siapa yang bisa mengembalikan agen ke jalur yang benar
  • Posisi manajerial mengungguli insinyur perangkat lunak, perbedaan profesi hampir menghilang

Dalam laporan penelitian terbaru, Anthropic menganalisis sekitar 235.000 sampel pengguna dan menemukan bahwa, yang benar-benar menentukan keberhasilan atau kegagalan AI, adalah seberapa paham "orang yang memberi instruksi" terhadap masalah yang sedang diselesaikan.

Seorang akuntan, bagaimana menjadi "ahli" menurut pandangan Claude

Sampel penelitian Anthropic mencakup 400.000 sesi Claude Code dari Oktober 2025 hingga April 2026.

Laporan ini membangun sebuah "skala pengukuran tingkat profesionalisme lima tingkat khusus tugas", dari pemula hingga ahli. Kunci terletak pada definisi "profesionalisme" ini yang berbeda dari yang biasanya. Singkatnya: Seberapa paham kamu terhadap masalah yang harus diselesaikan, bukan seberapa mahir menulis kode.

Contoh yang diberikan sangat langsung: seorang insinyur senior yang pertama kali menulis Rust, dalam tugas itu dianggap pemula; sebaliknya, seorang akuntan yang belum pernah pakai Python, asalkan mampu memberi instruksi tepat kepada Claude tentang aturan rekonsiliasi dan menemukan logika yang salah di batas akhir bulan, dalam tugas itu sudah dianggap ahli.

Perbedaan angka ini secara langsung menunjukkan tingkat keparahan masalah. Sesi pemula rata-rata memicu sekitar 5 tindakan Claude dan menghasilkan sekitar 600 kata; sesi ahli memicu sekitar 12 tindakan dan menghasilkan sekitar 3.200 kata, yaitu lebih dari dua kali lipat jumlah tindakan dan lima kali lipat output dibandingkan pemula.

Analisis regresi Anthropic menunjukkan bahwa setiap peningkatan satu tingkat profesionalisme, jumlah tindakan Claude meningkat sekitar 9%, output meningkat sekitar 13%, dan hubungan ini tetap berlaku setelah dikontrol untuk jenis pekerjaan, nilai tugas, bulan, profesi, dan versi model.

Setelah melakukan kesalahan, siapa yang bisa mengembalikan agen ke jalur yang benar

Angka keberhasilan lebih menggambarkan masalah. Anthropic mendefinisikan dua tingkat standar keberhasilan: "penentuan keberhasilan" (classifier menilai apakah target tercapai setelah membaca percakapan) dan "verifikasi keberhasilan" (memerlukan bukti keras yang dapat diverifikasi, seperti melalui pengujian, commit git, konfirmasi pengguna secara eksplisit).

Secara keseluruhan, semakin tinggi tingkat profesionalisme pengguna, semakin tinggi peluang keberhasilan sesi, dan sebagian besar peningkatan terjadi di tingkat bawah skala, dari pemula ke tingkat menengah, perbedaan antara menengah dan ahli lebih kecil. Anthropic menemukan bahwa tingkat verifikasi keberhasilan sesi tingkat ahli lebih dari dua kali lipat dari pemula.

Lebih menarik lagi adalah "tingkat perbaikan setelah kesalahan". Anthropic melacak sesi yang mengalami masalah, yaitu percakapan yang menunjukkan tanda-tanda kegagalan. Dalam sesi ini, tingkat keberhasilan verifikasi meningkat dari 4% pada pemula menjadi 15% pada ahli; proporsi keberhasilan sebagian, dari 60% pada pemula hingga 80-81% pada tingkat menengah dan ahli.

Perbedaan tingkat putus asa juga cukup mencolok. Saat sesi menghadapi kendala, pemula memiliki peluang 19% untuk langsung menyerah (menilai gagal dan tidak menulis kode sama sekali), sedangkan tingkat lain hanya 5-7%. Interpretasi Anthropic adalah: salah satu nilai dari keahlian bidang adalah kemampuan untuk mengarahkan kembali agen ke jalur yang benar saat berjalan menyimpang.

Temuan ini mengarah pada kesimpulan yang kontra intuitif: "Mengerti masalah" lebih penting daripada "mengerti alat". Karena dengan memahami masalah, kita bisa tahu di mana letak kesalahan saat Claude memberikan jawaban yang salah; bisa menjelaskan batasan secara tepat; dan bisa langsung mengoreksi saat agen membuat keputusan aneh.

Posisi manajerial mengungguli insinyur perangkat lunak, perbedaan profesi hampir menghilang

Data Anthropic membantah satu prediksi lain: latar belakang profesi tidak sepenting yang dibayangkan.

Persentase keberhasilan verifikasi untuk profesi terkait perangkat lunak secara keseluruhan sekitar 30%, sedangkan profesi lain sekitar 26%. Jika hanya melihat sesi yang menghasilkan kode secara nyata, perbedaan meningkat menjadi 34% vs 29%, tetapi jika diperluas ke "setidaknya sebagian berhasil", kedua kelompok hampir sejajar: 89% vs 88%.

Lebih menarik lagi, dari sepuluh besar profesi, setiap profesi berada dalam jarak kurang dari 7 poin persentase dari tingkat keberhasilan verifikasi insinyur perangkat lunak. Posisi manajerial bahkan sedikit lebih tinggi dari insinyur perangkat lunak. Dugaan Anthropic adalah: kebiasaan manajer dalam memberi tugas dan menetapkan spesifikasi secara alami tertransfer ke pengendalian agen.

Tipe pekerjaan juga berkembang pesat dalam tujuh bulan terakhir. Sesi perbaikan bug menurun dari 33% menjadi 19%, hampir setengahnya; operasi perangkat lunak (deployment, pengaturan, eksekusi pipeline) naik dari 14% menjadi 21%; penulisan dan analisis data sekitar dua kali lipat dari 10% menjadi 20%.

Dengan kata lain, pengguna semakin banyak menggunakan Claude Code untuk pekerjaan "seputar pemrograman" yang tidak hanya menulis kode secara langsung.

Nilai ekonomi dari tugas-tugas ini juga meningkat secara bersamaan. Anthropic memperkirakan nilai pasar rata-rata setiap sesi berdasarkan tarif freelance, meningkat sekitar 27% dalam tujuh bulan; tugas konstruktif naik sekitar 43%, operasional sekitar 34%, dan perbaikan sekitar 32%.

Anthropic mengakhiri laporan dengan memperkenalkan sebuah kerangka konsep yang patut diingat: manfaat berasal dari "kompetensi, bukan penguasaan", secara sederhana yaitu "penguasaan yang cukup", tanpa perlu mahir secara mendalam.

Memiliki pemahaman dasar hingga menengah terhadap suatu bidang sudah cukup untuk mendapatkan sebagian besar manfaat; dari tingkat menengah ke tingkat ahli, kurva keberhasilan cenderung menjadi lebih datar.

Seiring ekspansi alat AI yang terus berlangsung, yang diperbesar bukanlah kemampuan pemrograman, melainkan kedalaman pemahaman terhadap masalah. Orang yang tidak memahami apa yang harus diselesaikan, bahkan dengan model yang lebih kuat, hanya akan semakin cepat tersesat.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan