SOOHAK adalah standar matematika AI yang dibuat oleh Aliansi Matematikawan 64-bit, yang mencakup 439 tugas tulisan tangan, di mana 99 di antaranya sengaja dibuat tidak memiliki solusi. Penelitian menunjukkan bahwa Google Gemini 3 Pro memiliki tingkat akurasi sekitar 30% dalam masalah tingkat penelitian, tetapi tidak ada model yang mampu melebihi 50% dalam mengenali tugas yang tidak memiliki solusi. Menambah sumber daya komputasi dapat meningkatkan kemampuan pemecahan masalah, tetapi sulit untuk meningkatkan kemampuan mengakui ketidakadaan solusi. SOOHAK bertujuan untuk mengukur kesenjangan antara sedikitnya titik terang AI dan kekurangan keterampilan penelitian sistematis.

MeNews

2026-05-17 11:20:34

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 17 Mei (UTC+8), benchmark AI matematika baru yang dibuat oleh Aliansi Matematikawan 64-bit, SOOHAK, mengungkapkan kekurangan utama model AI. Tes ini mencakup 439 tugas tulisan tangan, di mana 99 tugas dirancang secara sengaja tanpa solusi. Google Gemini 3 Pro unggul dalam masalah tingkat penelitian, mencapai akurasi 30%, tetapi tidak ada model yang mampu mengenali tugas tanpa solusi lebih dari 50%. Penelitian menunjukkan bahwa lebih banyak sumber daya komputasi dapat meningkatkan kemampuan model dalam memecahkan masalah, tetapi tidak dapat meningkatkan kemampuannya dalam mengakui bahwa masalah tersebut tidak memiliki solusi. SOOHAK bertujuan untuk mengukur kesenjangan antara pencapaian menonjol AI yang sedikit dan keterampilan penelitian luas yang masih kurang dalam sistem.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.95M Popularitas
#
CLARITYActPassesSenateCommittee
3.58M Popularitas
#
IsraelStrikesIranBTCPlunges
47.35K Popularitas
#
#DailyPolymarketHotspot
972.58K Popularitas
#
BitcoinVShapedReversalBack
227.15M Popularitas

Disematkan

peta situs

Pengujian dasar SOOHAK mengungkapkan kekurangan model AI: kemampuan mengenali masalah matematika tanpa solusi tidak pernah melebihi 50%

Topik Trending

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Disematkan