Alur Kerja Keamanan AI Open Source Anthropic: Tujuh Tahap Otomatisasi Penemuan Kerentanan, Verifikasi hingga Pembuatan Patch

Anthropic merilis sumber terbuka sebuah rangkaian otomatisasi keamanan siber yang didukung oleh Claude, seluruh sistem dari pencarian kerentanan, verifikasi berlapis hingga pembuatan patch, dilakukan secara kolaboratif oleh AI, sehingga tim keamanan siber mana pun sekarang dapat menginstalnya sendiri.
(Latar belakang: Anthropic:「Model Mythos Preview」kemampuan pengambilan keputusan melampaui ahli manusia, dengan tingkat keberhasilan hingga 64%)
(Tambahan latar belakang: Bloomberg membocorkan bahwa Claude Mythos telah diakses tanpa izin! Celah paling sulit dipertahankan oleh Anthropic selalu adalah "manusia")

Daftar isi artikel

Toggle

  • Tujuh tahap, satu jalur verifikasi diri otomatis
  • Dua jalur, satu pilihan
  • Tembok sedang ditembus dengan alat yang sama

Claude Opus dari Anthropic selama beberapa waktu telah menemukan ratusan kerentanan keamanan di banyak repositori perangkat lunak sumber terbuka, kerentanan ini "meskipun telah melalui peninjauan ahli selama bertahun-tahun, tetap tidak terdeteksi", menyoroti batas struktural dari peninjauan manusia.

Baru-baru ini, Anthropic merilis seluruh rangkaian otomatis pencarian kerentanan, verifikasi berlapis, dan pembuatan patch di GitHub, sehingga tim keamanan mana pun dapat menginstal, menyesuaikan, dan memigrasikan ke kode target mereka sendiri.

Tujuh tahap, satu jalur verifikasi diri otomatis

Seluruh sistem ini bernama Defending Code Reference Harness, inti dari rangkaian otomatis tujuh tahap:

Build (Bangun), Recon (Pengintaian), Find (Temukan celah), Verify (Verifikasi), Dedupe (Penghapusan duplikat), Report (Laporan), Patch (Perbaikan). Setiap tahap didukung oleh agen AI independen, hanya mentransfer informasi minimal antar tahap, untuk mencegah bias subjektif dari proses penalaran tahap sebelumnya mempengaruhi tahap berikutnya.

Tahap Build mengompilasi perangkat lunak target menjadi sebuah citra dengan detector ASAN. ASAN adalah singkatan dari AddressSanitizer, secara sederhana adalah "detektor ranjau" untuk kerentanan keamanan memori, yang akan langsung memberi peringatan saat program mengakses memori ilegal saat dijalankan. Citra ini digunakan di semua tahap berikutnya, memastikan setiap agen AI melihat lingkungan kode yang sama persis.

Tahap Find adalah mesin utama dari seluruh sistem. N agen AI paralel bekerja dalam wadah terisolasi, membaca kode sumber dan menghasilkan input berbahaya. Metode "menghasilkan input berbahaya" ini, secara kasual disebut fuzz testing: memberi berbagai data aneh, cacat, dan di luar batas ke program, untuk melihat apakah program akan crash.

Agen hanya akan mengirimkan temuan ini setelah crash tersebut dapat direproduksi secara stabil tiga kali, bertujuan menyaring false positives. False positive, secara sederhana, adalah "menganggap perilaku normal sebagai kerentanan", yang merupakan kritik umum terhadap alat keamanan.

Anthropic menekankan bahwa sistem ini menggunakan mekanisme verifikasi berlapis, agar setiap laporan kerentanan memiliki skor kepercayaan dan tingkat keparahan yang dapat dipercaya.

Selanjutnya adalah Verify. Agen baru menjalankan ulang proof-of-concept (PoC) ini dalam wadah terpisah, secara sederhana adalah "kode eksekusi minimal yang membuktikan kerentanan benar-benar ada", hanya byte asli dari PoC yang akan mengalir antar wadah, memastikan agen verifikasi tidak mengetahui proses penalaran agen sebelumnya, menjaga independensi kesimpulan.

Tahap Report menghasilkan analisis lengkap tentang kerentanan yang dapat dieksploitasi, dan agen penilaian independen memeriksa argumen dalam laporan tersebut, termasuk nomor baris kode sumber dan hasil eksekusi aktual. Sebelum menghasilkan patch kandidat, sistem memerlukan konfirmasi manual agar patch dapat diterapkan.

Seluruh rangkaian berjalan di atas sandbox gVisor. gVisor secara sederhana adalah teknologi virtualisasi ringan yang mengisolasi di tingkat kernel OS, sehingga apapun kode yang dijalankan agen AI di dalam wadah tidak dapat mengakses sistem file host, dan keluar jaringan hanya dibatasi ke API Claude, tanpa membocorkan data apapun.

Dua jalur, satu pilihan

Sistem ini menyediakan dua jalur penggunaan, dengan tingkat kompleksitas yang sangat berbeda, dan Anthropic menyarankan memulai dari jalur yang paling sederhana.

Jalur pertama: Skill Interaktif. Hanya membutuhkan empat baris perintah:

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

Menjalankan /quickstart akan memandu Anda melalui seluruh proses interaktif: pemodelan ancaman → pemindaian kerentanan statis → klasifikasi dan penghapusan duplikat secara manual → pembuatan patch. Tidak memerlukan lingkungan wadah, cocok untuk memahami logika proses sebelum memutuskan untuk otomatisasi penuh.

Jalur kedua: Rangkaian otomatisasi (Autonomous Pipeline). Membutuhkan instalasi gVisor sandbox dan pengaturan ANTHROPIC_API_KEY, untuk menjalankan seluruh rangkaian tujuh tahap pada target nyata, menghasilkan laporan kerentanan dengan skor kepercayaan dan patch kandidat. Repositori GitHub menyertakan contoh kerentanan bernama drlibs, disarankan untuk berlatih dari sana sebelum beralih ke target sendiri.

Saran Anthropic adalah: hari pertama menjalankan seluruh proses interaktif, hari kedua beralih ke rangkaian otomatis untuk target C/C++, dan hari ketiga sampai kelima menggunakan /customize untuk memigrasi ke bahasa lain atau tipe kerentanan berbeda.

Ada satu kalimat penting dalam dokumen: "Tim yang sukses menolak keinginan untuk merancang rangkaian sempurna terlebih dahulu, lalu mulai bekerja; mulai dulu, lalu iterasi."

Tembok sedang ditembus dengan alat yang sama

Ketidakseimbangan dalam serangan dan pertahanan keamanan siber ini bersifat struktural. Penyerang hanya perlu menemukan satu celah; pertahanan harus menutup setiap celah.

Target seperti GhostScript, OpenSC, CGIF yang digunakan sebagai contoh, semuanya adalah proyek open source matang dan tersebar luas, namun kerentanan yang tersembunyi di dalamnya selama puluhan tahun tetap tidak terdeteksi oleh peninjauan manusia, sampai Claude Opus secara mandiri membaca riwayat commit, menafsirkan sebuah patch yang tidak lengkap, melacak logika ke file lain, dan menyusun sebuah PoC yang dapat dieksekusi secara nyata. Proses ini bukan berdasarkan pencocokan aturan, melainkan penalaran.

Anthropic juga menyediakan dua jalur: versi sumber terbuka Defending Code Reference Harness untuk tim yang ingin kontrol penuh, dapat diinstal dan disesuaikan sendiri; dan Claude Security, versi komersial yang sepenuhnya dikelola, tanpa perlu mengatur gVisor dan infrastruktur.

Versi sumber terbuka menawarkan transparansi dan kontrol, sedangkan versi terkelola menawarkan kemudahan penggunaan tanpa hambatan, keduanya mencerminkan strategi Anthropic menempatkan alat keamanan defensif sebagai infrastruktur dasar.

Kemampuan menemukan kerentanan, yang dulu hanya dimiliki oleh organisasi besar dengan sumber daya merekrut tim red team terbaik, kini menjadi terbuka melalui rangkaian ini. Tembok tidak seimbang antara penyerang dan pertahanan, sedang ditembus oleh alat yang sama dari kedua sisi secara bersamaan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan