BioMysteryBench发布：99道真实生物信息学题，76道可被人解，23道为人类难题。Claude Opus 4.6在可解题中的准确率为77.4%，5次内至少4次正确86%，难题44%。Mythos Preview在难题上提升显著，Hard题约30%解出。两类策略：内部跨论文推理与并行多分析取证据链。Genentech/Roche的CompBioBench也给出Opus 4.6总体81%、最难69%，与BioMysteryBench结论一致。

MeNews

2026-04-30 07:40:17

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 30 April (UTC+8), menurut pemantauan Beating dari Dongcha, Anthropic merilis BioMysteryBench, sebuah standar pengujian bioinformatika berisi 99 soal.
Soal dibuat oleh ahli bidang berdasarkan dataset nyata (sekuensing DNA/RNA, proteomik, metabolomik, dll), jawaban berasal dari atribut objektif data atau metadata verifikasi eksperimen, tidak bergantung pada penilaian subjektif peneliti.
Contoh soal: menentukan gen yang dihapus dari kelompok eksperimen berdasarkan data RNA-seq, atau menebak hubungan orang tua-anak dari data sekuensing genom lengkap.
Lingkungan pengujian memberi Claude sebuah wadah, sudah terpasang alat bioinformatika umum, dapat menginstal perangkat lunak melalui pip dan conda, dapat mengakses database publik seperti NCBI, Ensembl untuk mengunduh genom referensi, hanya menilai jawaban akhir, tidak terbatas pada jalur analisis.
Dari 99 soal, 76 setidaknya ada satu ahli manusia yang menjawab benar (dapat dipecahkan manusia), sisanya 23 soal tidak terpecahkan oleh maksimal 5 ahli bidang (kesulitan manusia).
Pada soal yang dapat dipecahkan manusia, Claude Opus 4.6 memiliki akurasi 77,4%, Mythos Preview meningkat lebih jauh.
Pada 23 soal yang sulit bagi manusia, model Sonnet 4.6 dan yang lebih kuat sudah mampu memecahkan proporsi yang cukup besar, Mythos Preview mencapai 30%.
Analisis jejak menunjukkan Claude memiliki dua strategi utama: pertama, memanggil pengetahuan lintas makalah yang terinternalisasi dalam data pelatihan, langsung menyelesaikan inferensi yang biasanya membutuhkan meta-analisis manusia; kedua, saat tidak yakin, menjalankan berbagai metode analisis secara bersamaan, mengambil irisan dari beberapa rangka bukti.
Analisis keandalan mengungkapkan perbedaan halus: pada soal yang dapat dipecahkan manusia, 86% dari jawaban Opus 4.6 benar setidaknya 4 kali dari 5 percobaan, menunjukkan kestabilan; pada soal sulit manusia, rasio ini turun menjadi 44%, hampir setengah jawaban benar hanya dalam 1-2 dari 5 percobaan, lebih seperti keberuntungan yang melewati jalur inferensi tertentu.
Di balik perbedaan akurasi, perbedaan keandalan lebih mampu menunjukkan batas kemampuan.
Genentech dan Roche secara bersamaan merilis CompBioBench (100 soal biologi komputasi) dengan konsep desain serupa, Claude Opus 4.6 secara keseluruhan mencapai 81%, soal tersulit 69%, hasil ini saling menguatkan dengan kesimpulan BioMysteryBench.
(Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
353.22K Popularitas
#
PlatinumCardCreatorExclusive
130.36K Popularitas
#
IsraelStrikesIranBTCPlunges
49.11K Popularitas
#
#DailyPolymarketHotspot
1.06M Popularitas
#
GateSquarePizzaDay
670.98K Popularitas

Disematkan

peta situs

Anthropic merilis BioMysteryBench: soal biologi yang tidak bisa dijawab oleh 5 ahli, Claude Mythos dapat menyelesaikan 30%

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan