Hanya bisa Vibe Coding tidak akan menjadi ahli! Anthropic mengungkap kebenaran: pengetahuan profesional lebih penting daripada menulis kode

Laporan menunjukkan bahwa saat menggunakan kecerdasan buatan untuk menulis kode, pengetahuan domain dan kemampuan penerimaan lebih penting daripada keahlian pemrograman. Memiliki penilaian profesional dan kemampuan membuat soal, dapat secara signifikan meningkatkan tingkat keberhasilan tugas.

16 Juni, Anthropic merilis laporan penelitian berjudul 《Agentic coding and persistent returns to expertise》 (agentic coding mengacu pada "penulisan kode berdasarkan instruksi", kamu memberi perintah, AI membaca file dan menjalankan perintah untuk menyelesaikan tugas).

Laporan menganalisis sekitar 235.000 pengguna dan sekitar 400.000 interaksi Claude Code dari Oktober 2025 hingga April 2026, dan ingin menjawab pertanyaan yang banyak membuat orang cemas: Apakah orang yang tidak mendapatkan pelatihan pemrograman formal benar-benar bisa memerintah AI menyelesaikan pekerjaan teknis yang kompleks?

Jawaban dari laporan adalah ya, tetapi yang benar-benar perlu diperhatikan adalah kesimpulan laporan: apakah menulis kode itu begitu penting, dan justru "mengerti apa yang sedang kamu kerjakan" yang lebih utama.

"Semua orang bisa menulis kode," kalimat ini hanya benar setengah

Dalam setahun terakhir, "vibe coding" (menulis kode berdasarkan feeling, kamu menggunakan bahasa alami untuk mendeskripsikan apa yang diinginkan, AI langsung menghasilkan kode yang bisa dijalankan, kamu tidak perlu benar-benar memahami setiap baris) menjadi tren di kalangan pengembang. Mengikuti tren ini, narasi yang paling umum adalah: ambang batas menulis kode telah diratakan, semua orang bisa menjadi insinyur.

Siapa yang paling diuntungkan dari narasi ini? Produsen alat AI, dan para bos yang berpikir "tidak perlu lagi mempekerjakan insinyur", semuanya cerita yang bagus. Tapi data dari laporan mengoreksi narasi tersebut menjadi versi yang lebih realistis.

Anthropic menilai setiap pengguna dalam setiap percakapan berdasarkan transkrip kata demi kata, dalam lima tingkat dari "pemula hingga ahli". Perlu dicatat, tingkat keahlian ini berbeda dari jabatan atau kecerdasan seseorang, dan bersifat spesifik terhadap tugas.

Laporan memberikan contoh penting: seorang akuntan yang sama sekali tidak pernah menggunakan Python, selama dia mampu secara jelas memberi tahu Claude tentang aturan rekonsiliasi dan mampu menemukan kesalahan batasan yang terlewatkan AI saat penutupan bulanan, dia adalah ahli dalam tugas itu; sebaliknya, seorang insinyur senior yang bertanya tentang bahasa Rust untuk pertama kalinya, dia adalah pemula.

Dengan kata lain, "keahlian" yang dimaksud di sini bukan tentang kemampuan coding, tetapi seberapa banyak kamu memahami "masalah yang harus diselesaikan". Ini juga mengapa menyederhanakan laporan menjadi "semua orang bisa menggantikan insinyur" adalah salah paham, karena pengetahuan domain sendiri adalah bentuk penilaian profesional yang membutuhkan pengalaman bertahun-tahun. Pengetahuan ini tidak hilang, hanya bergeser menjadi bottleneck.

Bagaimana pembagian kerja: kamu memberi soal, AI menjawab

Gambar paling jelas dari laporan ini adalah pembagian keputusan antara manusia dan AI. Anthropic membagi setiap keputusan menjadi "perencanaan" (apa yang dilakukan, metode apa yang digunakan, bagaimana menilai selesai) dan "pelaksanaan" (mengubah file apa, menulis kode apa, menggunakan bahasa apa). Hasilnya: secara rata-rata, manusia melakukan sekitar 70% keputusan perencanaan, sementara Claude melakukan sekitar 80% keputusan pelaksanaan.

Sumber gambar: Anthropic

Secara sederhana, manusia bertanggung jawab atas pembuatan soal dan penerimaan, sementara AI yang mengerjakan. Semakin berpengalaman pengguna, semakin besar kecenderungan untuk "melepaskan" bagian ini: laporan menemukan, pemula setiap perintah rata-rata memicu sekitar 5 tindakan Claude dan menghasilkan sekitar 600 kata; sedangkan ahli setiap perintah memicu sekitar 12 tindakan dan sekitar 3.200 kata. Orang yang berpengalaman berani menyerahkan bagian yang lebih besar karena mereka tahu bagaimana mendeskripsikan dan bagaimana melakukan verifikasi.

Sumber gambar: Anthropic

Ini adalah bagian pertama dari laporan yang bertentangan dengan intuisi: semakin kuat AI, leverage orang berpengalaman bukan berkurang, tetapi justru membesar.

Angka yang benar-benar membedakan adalah tingkat keberhasilan

Anthropic mengukur "apakah percakapan ini berhasil" dengan dua cara. Yang paling longgar adalah "setidaknya sebagian berhasil"; yang paling ketat disebut verified success (keberhasilan terverifikasi, artinya tidak hanya AI yang menilai selesai, tetapi juga ada bukti nyata seperti commit git, pengujian berhasil, atau konfirmasi eksplisit dari pengguna).

Menurut standar paling ketat: tingkat keberhasilan terverifikasi untuk percakapan pemula hanya 15%, sedangkan untuk tingkat menengah hingga ahli naik menjadi 28% sampai 33%. Dengan standar yang lebih longgar, pemula mencapai 77%, dan tingkat menengah ke atas mencapai 91% sampai 92%.

Sumber gambar: Anthropic

Namun, ada detail yang ditekankan dalam laporan: sebagian besar peningkatan terjadi saat "pemula beralih ke tingkat menengah", setelah itu kurva cenderung datar saat naik ke tingkat ahli. Dengan kata lain, selama seseorang memiliki pengetahuan dasar di bidang tertentu dan mampu menggunakannya, mereka bisa mendapatkan sebagian besar manfaatnya; kedalaman keahlian hanya menambah sedikit.

Perbedaan juga terlihat dari siapa yang mampu bertahan saat menghadapi hambatan. Saat percakapan mengalami masalah (error, pengujian gagal, percobaan berulang), 19% pemula langsung menyerah tanpa menulis satu baris kode; sedangkan tingkat lain hanya 5% sampai 7%. Interpretasi laporan adalah kemampuan mengembalikan AI ke jalur yang benar sendiri sudah termasuk dalam keahlian.

Sebuah temuan yang kurang dihargai: perbedaan profesional, jauh lebih kecil dari yang kamu kira

Jika latar belakang pemrograman benar-benar sangat penting, insinyur perangkat lunak harus jauh di depan. Tapi data tidak menunjukkan itu.

Dalam percakapan yang menghasilkan kode, tingkat keberhasilan terverifikasi untuk profesi terkait perangkat lunak sekitar 34%, sedangkan profesi lain sekitar 29%, hanya berbeda 5 poin persentase, dan selama tujuh bulan ini tidak menunjukkan peningkatan maupun penurunan.

Laporan menganalisis sepuluh profesi teratas dalam data, dan setiap tingkat keberhasilannya berada dalam 7 poin persentase dari insinyur perangkat lunak. Lebih mengejutkan lagi, posisi manajer bahkan sedikit lebih tinggi tingkat keberhasilannya dibanding insinyur.

Laporan sendiri memberikan dua penjelasan: pertama, kemampuan manajer dalam "mengatur, memberi instruksi, mendefinisikan tugas" sebenarnya bisa dialihkan ke AI; kedua, mungkin ada bias dalam pengukuran, karena keberhasilan terverifikasi sangat bergantung pada pengguna yang secara eksplisit menyatakan "iya, ini benar", dan manajer cenderung lebih terbiasa mengungkapkan hal tersebut dengan jelas.

Selama tujuh bulan ini, ada perubahan lain yang menarik: proporsi percakapan yang digunakan untuk debug (menangani bug, memperbaiki kode yang rusak) menurun dari 33% menjadi 19%, hampir setengahnya; sementara itu, penggunaan untuk mengoperasikan perangkat lunak (deployment, konfigurasi, menjalankan software) meningkat dari 14% menjadi 21%, dan penulisan serta analisis data meningkat dari sekitar 10% menjadi sekitar 20%.

Laporan memperkirakan nilai setiap tugas dengan membandingkan dengan pasar freelance (dengan penekanan bahwa ini hanya perbandingan relatif, bukan angka pasti), dan hasilnya rata-rata nilai tugas selama periode ini meningkat sekitar 27% (ringkasan laporan menyebutkan sekitar 25%).

Laporan ini tidak menyebutkan, tetapi hal yang lebih penting untuk dipikirkan

Laporan ini mengakui keterbatasannya: tidak bisa melihat hasil nyata di dunia nyata, tidak tahu apakah kode yang dihasilkan dari satu percakapan akhirnya digunakan; juga mengecualikan penggunaan "non-interaktif" (misalnya, mengintegrasikan Claude Code ke dalam proses otomatis), yang merupakan bagian besar dari penggunaan. Semua klasifikasi didasarkan pada penilaian model terhadap transkrip. Jadi ini hanyalah "snapshot awal", bukan kesimpulan definitif.

Hal yang lebih penting untuk dipikirkan oleh pekerja pengetahuan adalah pertanyaan yang disisipkan di akhir laporan. Anthropic menyatakan mereka akan terus memantau satu hal: jika "imbalan dari pengetahuan domain" mulai menurun, itu berarti model mulai mampu menyediakan penilaian yang selama ini harus dibawa sendiri oleh pengguna.

Pesan dari laporan ini adalah: kamu tidak perlu cemas karena "tidak bisa menulis kode", dan investasi yang lebih bijak adalah memperdalam pengetahuan di bidang yang sudah kamu geluti, serta menjelaskan apa yang dimaksud dengan "benar" dengan lebih jelas.

Pahami masalahnya terlebih dahulu, lalu serahkan ke AI untuk mempercepat; lakukan verifikasi terlebih dahulu, baru berani melepas.

  • Artikel ini disarikan dengan izin dari:《數位時代》
  • Judul asli: 《不能只懂寫Code!Anthropic揭Vibe coding真相:比起coding,「本業知識」才是最大槓桿》
  • Penulis asli: 李先泰
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan