Anthropic merilis BioMysteryBench: soal biologi yang tidak bisa dijawab oleh 5 ahli, Claude Mythos dapat menyelesaikan 30%

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 30 April (UTC+8), menurut pemantauan Beating dari Dongcha, Anthropic merilis BioMysteryBench, sebuah standar pengujian bioinformatika berisi 99 soal.
Soal dibuat oleh ahli bidang berdasarkan dataset nyata (sekuensing DNA/RNA, proteomik, metabolomik, dll), jawaban berasal dari atribut objektif data atau metadata verifikasi eksperimen, tidak bergantung pada penilaian subjektif peneliti.
Contoh soal: menentukan gen yang dihapus dari kelompok eksperimen berdasarkan data RNA-seq, atau menebak hubungan orang tua-anak dari data sekuensing genom lengkap.
Lingkungan pengujian memberi Claude sebuah wadah, sudah terpasang alat bioinformatika umum, dapat menginstal perangkat lunak melalui pip dan conda, dapat mengakses database publik seperti NCBI, Ensembl untuk mengunduh genom referensi, hanya menilai jawaban akhir, tidak terbatas pada jalur analisis.
Dari 99 soal, 76 setidaknya ada satu ahli manusia yang menjawab benar (dapat dipecahkan manusia), sisanya 23 soal tidak terpecahkan oleh maksimal 5 ahli bidang (kesulitan manusia).
Pada soal yang dapat dipecahkan manusia, Claude Opus 4.6 memiliki akurasi 77,4%, Mythos Preview meningkat lebih jauh.
Pada 23 soal yang sulit bagi manusia, model Sonnet 4.6 dan yang lebih kuat sudah mampu memecahkan proporsi yang cukup besar, Mythos Preview mencapai 30%.
Analisis jejak menunjukkan Claude memiliki dua strategi utama: pertama, memanggil pengetahuan lintas makalah yang terinternalisasi dalam data pelatihan, langsung menyelesaikan inferensi yang biasanya membutuhkan meta-analisis manusia; kedua, saat tidak yakin, menjalankan berbagai metode analisis secara bersamaan, mengambil irisan dari beberapa rangka bukti.
Analisis keandalan mengungkapkan perbedaan halus: pada soal yang dapat dipecahkan manusia, 86% dari jawaban Opus 4.6 benar setidaknya 4 kali dari 5 percobaan, menunjukkan kestabilan; pada soal sulit manusia, rasio ini turun menjadi 44%, hampir setengah jawaban benar hanya dalam 1-2 dari 5 percobaan, lebih seperti keberuntungan yang melewati jalur inferensi tertentu.
Di balik perbedaan akurasi, perbedaan keandalan lebih mampu menunjukkan batas kemampuan.
Genentech dan Roche secara bersamaan merilis CompBioBench (100 soal biologi komputasi) dengan konsep desain serupa, Claude Opus 4.6 secara keseluruhan mencapai 81%, soal tersulit 69%, hasil ini saling menguatkan dengan kesimpulan BioMysteryBench.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan