OpenAI meluncurkan tolok ukur biologi komputasi GeneBench-Pro, versi penuh GPT-5.6 hanya memiliki akurasi 30%.

robot
Pembuatan abstrak sedang berlangsung
Berita dari CoinWorld: OpenAI telah merilis tolok ukur evaluasi biologi komputasi, GeneBench-Pro, yang digunakan untuk menguji kemampuan pengambilan keputusan multi-langkah agen AI dalam menghadapi skenario penelitian ilmiah yang kompleks seperti genomika dan kedokteran translasional. Tolok ukur baru ini berisi total 129 pertanyaan (82 di antaranya telah ditinjau oleh ahli eksternal), yang menghasilkan data dengan hubungan kausal yang jelas melalui simulasi komputer, untuk mencegah model berbuat curang dengan mengambil jalan pintas atau menyesuaikan preferensi pembuat soal. Hasil pengujian menunjukkan bahwa model-model terdepan masih sangat kesulitan dalam menangani penalaran ilmiah yang mengandung ketidakpastian kuantitatif. GPT-5.6 yang terkuat hanya mampu mencapai tingkat akurasi 31.5% dalam mode Pro, sedangkan Claude Opus 4.8 hanya memiliki tingkat akurasi 16.0%. Tim peneliti menunjukkan bahwa model secara umum memiliki fenomena ketidaksesuaian 「dapat menemukan anomali tetapi tidak dapat memperbaiki analisis selanjutnya」, sering kali salah memilih metode statistik atau bertahan pada arah penelitian yang salah.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
ShellsLeftBehindByTheReceding
· 4jam yang lalu
Skor ini membuatku terdiam, Claude Opus hanya 16%?
Lihat AsliBalas0
Salt-BakedSentimentChart
· 4jam yang lalu
Dari 129 soal, 82 telah ditinjau oleh ahli. Upaya anti-kecurangan memang cukup serius, tetapi modelnya bahkan salah memilih metode statistik, menunjukkan bahwa logika dasarnya masih kurang.
Lihat AsliBalas0
PixelMetaverseRaccoon
· 4jam yang lalu
Keputusan multi-langkah mudah, tetapi setelah menemukan kesalahan masih tetap melanjutkannya, bukankah itu yang saya lakukan dalam eksperimen?
Lihat AsliBalas0
  • Disematkan