Pengujian dasar SOOHAK mengungkapkan kekurangan model AI: kemampuan mengenali masalah matematika tanpa solusi tidak pernah melebihi 50%

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 17 Mei (UTC+8), benchmark AI matematika baru yang dibuat oleh Aliansi Matematikawan 64-bit, SOOHAK, mengungkapkan kekurangan utama model AI. Tes ini mencakup 439 tugas tulisan tangan, di mana 99 tugas dirancang secara sengaja tanpa solusi. Google Gemini 3 Pro unggul dalam masalah tingkat penelitian, mencapai akurasi 30%, tetapi tidak ada model yang mampu mengenali tugas tanpa solusi lebih dari 50%. Penelitian menunjukkan bahwa lebih banyak sumber daya komputasi dapat meningkatkan kemampuan model dalam memecahkan masalah, tetapi tidak dapat meningkatkan kemampuannya dalam mengakui bahwa masalah tersebut tidak memiliki solusi. SOOHAK bertujuan untuk mengukur kesenjangan antara pencapaian menonjol AI yang sedikit dan keterampilan penelitian luas yang masih kurang dalam sistem.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan