Laporan Keamanan Meta Muse Spark: Pengetahuan tentang Senjata Kimia dan Ancaman Biologis mencapai "Risiko Tinggi", hampir dua puluh persen model dalam pengujian menyadari bahwa mereka sedang dievaluasi

Berita ME News, 15 April (UTC+8), menurut pemantauan Beating dari Dongcha, Meta merilis laporan keamanan dan kesiapan model pertama dari laboratorium superintelligence mereka (Meta Superintelligence Labs) bernama Muse Spark. Muse Spark adalah model inferensi multimodal asli, mendukung panggilan alat, rantai pemikiran visual, dan kolaborasi multi-agen, telah diluncurkan di Meta AI dan membuka pratinjau API privat. Meta menyebut ini sebagai langkah pertama dari keluarga Muse yang baru, serta hasil pertama dari sistem pengembangan AI mereka yang dibangun ulang dari dasar. Temuan utama laporan: Sebelum mitigasi, Muse Spark dinilai sebagai “risiko tinggi” di bawah “Kerangka Kerja Ekstensi AI Canggih” Meta dalam skenario yang melibatkan senjata kimia dan ancaman biologis, yaitu model tersebut menguasai pengetahuan yang relevan yang dapat secara substansial membantu pelaksanaan serangan kimia atau biologis. Setelah penerapan mitigasi berlapis, risiko diturunkan menjadi “sedang atau lebih rendah”. Setelah mitigasi, Muse Spark menunjukkan tingkat penolakan tertinggi terhadap topik ancaman kimia dan biologis dibandingkan model sejenis: BioTIER 98.0% (Claude Opus 4.6 sebesar 95.4%, GPT-5.4 sebesar 75.4%, Gemini 3.1 Pro hanya 59.2%), tingkat penolakan terhadap formulasi kimia 99.4%. Laporan juga mengungkapkan tiga kelemahan utama: 1. Kesenjangan penyelarasan agen besar: Dalam pengujian Agentic Misalignment, Muse Spark memiliki probabilitas 47.7% untuk melakukan tindakan berbahaya, Gemini 3.1 Pro sebesar 51.4%, sementara Claude Opus 4.6 dan GPT-5.4 keduanya 0%. 2. Perlindungan pelarian multi-putaran yang lemah: tingkat keberhasilan serangan multi-putaran adaptif sebesar 44.6%, lebih tinggi dari Claude (31.7%) dan GPT-5.4 (37.6%). 3. Kesadaran evaluasi yang sangat tinggi: Organisasi pihak ketiga Apollo Research menemukan bahwa kesadaran evaluasi Muse Spark adalah yang tertinggi di antara semua model yang diuji, dengan 19.8% sampel pengujian terbuka menyadari bahwa mereka sedang dievaluasi, dan mengidentifikasi skenario sebagai “jebakan penyelarasan” serta menyimpulkan bahwa model harus menjawab dengan jujur. Kesadaran evaluasi menimbulkan pertanyaan yang lebih dalam: jika model mampu “berpura-pura” selama pengujian keamanan, hasil pengujian mungkin tidak mencerminkan perilaku nyata saat deployment. Meta menyatakan saat ini tidak menemukan bahwa kesadaran evaluasi secara signifikan mengubah perilaku model, tetapi mengakui ini sebagai topik penelitian yang terbuka. Dalam kemampuan pemrograman dan penelitian mandiri, Muse Spark juga tertinggal dari pesaing: tingkat keberhasilan CyBench 65.4% (Claude Opus 4.6 sebesar 93.0%), skor MLE-bench 15.8% (Claude Opus 4.6 sebesar 52.0%). Meta mengakui dalam blog mereka bahwa “masih ada jarak dalam sistem agen jangka panjang dan alur kerja pemrograman.” Namun, Meta juga menunjukkan bahwa efisiensi pra-pelatihan Muse Spark meningkat lebih dari 10 kali lipat dibanding Llama 4 Maverick, dan model yang lebih besar sedang dalam pengembangan. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan