Mythos 5 Membuat Doktor Umum Mengejar Ahli Terbaik, tetapi Belum Bisa Menjadi Ilmuwan Mandiri

Menurut pemantauan Beating, Anthropic mengungkapkan dalam sistem Claude Fable 5 dan Claude Mythos 5 bahwa Mythos 5 menunjukkan kemampuan pendukung ahli yang sangat kuat dalam penilaian keamanan biologis. Dalam latihan tim merah patologi tanaman, 6 doktor biologi masing-masing dipasangkan dengan ahli model besar, menggunakan Mythos 5 untuk merancang solusi ketahanan biologis end-to-end yang ditujukan terhadap patogen pertanian rekayasa imajiner. Di antaranya, 3 tim termasuk ahli patologi tanaman, sementara 3 tim lainnya terdiri dari doktor mikrobiologi umum. Hasilnya menunjukkan bahwa dalam waktu 16 jam, 2 dari 3 tim doktor umum melampaui ketiga tim ahli dari segi kualitas ilmiah dan kelayakan. Penilai ahli memperkirakan bahwa tanpa alat AI, menyelesaikan strategi dan protokol implementasi ini biasanya membutuhkan 40 hingga 95 hari kerja, dengan rata-rata sekitar 72,5 hari kerja. Anthropic berpendapat bahwa ini adalah salah satu bukti tunggal terkuat bahwa Mythos 5 mendekati ambang risiko CB-2, menunjukkan bahwa model ini sudah mampu memberikan dukungan pengetahuan bidang yang mendekati para ahli tingkat dunia bagi peneliti umum dalam beberapa tugas. Namun, ini tidak berarti Mythos 5 sudah mampu menyelesaikan penelitian terdepan secara mandiri. Anthropic juga menunjukkan bahwa model masih bergantung pada penyaringan ide oleh manusia, kemampuan konseptual terbuka relatif lemah, cenderung menggabungkan literatur yang ada menjadi skema kompleks, tetapi jarang mengusulkan jalur inovatif yang benar-benar baru; model juga cenderung mengikuti kerangka kesalahan yang diberikan pengguna, bahkan jika menemukan kekurangan dalam skema tersebut, model mungkin tetap melanjutkan eksekusi. Penilaian ini juga sejalan dengan standar prediksi ilmiah CUSP. CUSP mencakup 4760 peristiwa ilmiah dan mengevaluasi kemampuan model dalam menilai kelayakan kemajuan ilmiah, identifikasi mekanisme, generasi skema, dan prediksi waktu. Hasilnya menunjukkan bahwa GPT-5.4 mencapai 81,9% dalam soal identifikasi mekanisme pilihan ganda empat opsi, sedangkan Claude S4.5 mencapai 72,4%. Namun, dalam tugas klasifikasi biner tentang apakah kemajuan ilmiah akan benar-benar terwujud, akurasi masing-masing model hanya 45,3% hingga 51,9%, mendekati tebakan acak. Dengan kata lain, model besar saat ini sudah sangat mahir dalam melengkapi langkah-langkah penelitian lokal, tetapi masih tidak dapat diandalkan dalam menilai jalur ilmiah mana yang benar-benar akan berhasil.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan