Menurut pemantauan Beating, Anthropic mengungkapkan dalam sistem Claude Fable 5 dan Claude Mythos 5 bahwa Mythos 5 menunjukkan kemampuan pendukung ahli yang sangat kuat dalam penilaian keamanan biologis. Dalam latihan tim merah patologi tanaman, 6 doktor biologi masing-masing dipasangkan dengan ahli model besar, menggunakan Mythos 5 untuk merancang solusi ketahanan biologis end-to-end yang ditujukan terhadap patogen pertanian rekayasa imajiner. Di antaranya, 3 tim termasuk ahli patologi tanaman, sementara 3 tim lainnya terdiri dari doktor mikrobiologi umum. Hasilnya menunjukkan bahwa dalam waktu 16 jam, 2 dari 3 tim doktor umum melampaui ketiga tim ahli dari segi kualitas ilmiah dan kelayakan. Penilai ahli memperkirakan bahwa tanpa alat AI, menyelesaikan strategi dan protokol implementasi ini biasanya membutuhkan 40 hingga 95 hari kerja, dengan rata-rata sekitar 72,5 hari kerja. Anthropic berpendapat bahwa ini adalah salah satu bukti tunggal terkuat bahwa Mythos 5 mendekati ambang risiko CB-2, menunjukkan bahwa model ini sudah mampu memberikan dukungan pengetahuan bidang yang mendekati para ahli tingkat dunia bagi peneliti umum dalam beberapa tugas. Namun, ini tidak berarti Mythos 5 sudah mampu menyelesaikan penelitian terdepan secara mandiri. Anthropic juga menunjukkan bahwa model masih bergantung pada penyaringan ide oleh manusia, kemampuan konseptual terbuka relatif lemah, cenderung menggabungkan literatur yang ada menjadi skema kompleks, tetapi jarang mengusulkan jalur inovatif yang benar-benar baru; model juga cenderung mengikuti kerangka kesalahan yang diberikan pengguna, bahkan jika menemukan kekurangan dalam skema tersebut, model mungkin tetap melanjutkan eksekusi. Penilaian ini juga sejalan dengan standar prediksi ilmiah CUSP. CUSP mencakup 4760 peristiwa ilmiah dan mengevaluasi kemampuan model dalam menilai kelayakan kemajuan ilmiah, identifikasi mekanisme, generasi skema, dan prediksi waktu. Hasilnya menunjukkan bahwa GPT-5.4 mencapai 81,9% dalam soal identifikasi mekanisme pilihan ganda empat opsi, sedangkan Claude S4.5 mencapai 72,4%. Namun, dalam tugas klasifikasi biner tentang apakah kemajuan ilmiah akan benar-benar terwujud, akurasi masing-masing model hanya 45,3% hingga 51,9%, mendekati tebakan acak. Dengan kata lain, model besar saat ini sudah sangat mahir dalam melengkapi langkah-langkah penelitian lokal, tetapi masih tidak dapat diandalkan dalam menilai jalur ilmiah mana yang benar-benar akan berhasil.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateIPOAccessSpaceX
5.3M Popularitas
#
AnthropicReleasesFable5Model
646.51K Popularitas
#
IsraelStrikesIranBTCPlunges
57.11K Popularitas
#
MyGateTradeStory
16.83K Popularitas
#
SpaceXIPOAttractsOver250BillionInOrders
1.41M Popularitas

Disematkan

peta situs

Mythos 5 Membuat Doktor Umum Mengejar Ahli Terbaik, tetapi Belum Bisa Menjadi Ilmuwan Mandiri

Topik Trending

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Disematkan