Institut Keamanan AI Inggris: Pratinjau Claude Mythos menjadi AI pertama yang secara mandiri menembus simulasi serangan jaringan perusahaan 32 langkah

Berita ME News, 14 April (UTC+8), menurut pemantauan 1M AI News, Institut Keamanan AI Inggris (AISI) merilis penilaian kemampuan keamanan siber Claude Mythos Preview. Dalam tugas CTF tingkat ahli (yang tidak dapat diselesaikan oleh model apa pun sebelum April 2025), Mythos Preview berhasil dengan tingkat keberhasilan 73%. AISI juga membangun skenario simulasi serangan jaringan perusahaan “The Last Ones” (TLO) yang terdiri dari 32 langkah, mencakup seluruh proses mulai dari pengintaian awal hingga pengambilalihan penuh jaringan, yang memerlukan sekitar 20 jam bagi manusia untuk menyelesaikannya. Mythos Preview adalah model pertama yang berhasil menyelesaikan seluruh proses, dengan 3 dari 10 pengujian selesai secara lengkap, dan rata-rata menyelesaikan 22 langkah setiap percobaan. Claude Opus 4.6 berada di posisi kedua, dengan rata-rata menyelesaikan 16 langkah. AISI menjelaskan bahwa semua hasil tersebut diperoleh dalam kondisi terkendali yang secara jelas membimbing dan memberikan akses jaringan. Lingkungan pengujian berbeda secara signifikan dari jaringan perusahaan nyata: tidak ada pertahanan aktif, tidak ada alat pertahanan, dan alarm keamanan yang dipicu tidak dikenai hukuman. Oleh karena itu, tidak dapat dipastikan apakah Mythos Preview mampu menembus sistem yang dilindungi secara ketat. Dua tahun lalu, model AI terbaik hampir tidak mampu menyelesaikan tugas jaringan tingkat dasar. AISI menunjukkan bahwa kecepatan kemajuan ini menuntut metode penilaian keamanan yang harus ditingkatkan secara bersamaan, dan di masa depan akan terus menguji dalam lingkungan yang mensimulasikan pertahanan aktif dan respons waktu nyata. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan