Menurut pemantauan oleh Dongcha Beating, Google DeepMind telah merilis seorang co-matematikawan AI, sebuah platform penelitian interaktif untuk matematikawan yang memanfaatkan arsitektur multi-agen. Sistem ini mencapai tingkat akurasi 47,9% pada tolok ukur matematika tingkat penelitian yang paling menantang saat ini, FrontierMath Tier 4 (menyelesaikan 23 dari 48 masalah), langsung melampaui rekor sebelumnya sebesar 39,6% yang ditetapkan oleh GPT-5.5 Pro. Sistem ini tidak menggunakan model dasar generasi berikutnya tetapi justru memanfaatkan Gemini 3.1 Pro. Model itu sendiri hanya mencapai 19% akurasi pada Tier 4, tetapi dengan penambahan kerangka agen, kinerjanya lebih dari dua kali lipat. DeepMind melengkapinya dengan arsitektur berlapis: di tingkat atas, seorang ‘koordinator proyek’ membagi tugas penelitian menjadi beberapa alur kerja, yang kemudian didistribusikan ke sub-agen yang bertanggung jawab untuk pengambilan literatur, pengkodean, dan penalaran. Bukti yang dihasilkan harus melalui proses tinjauan oleh beberapa ‘agen tinjauan’ sebelum dapat diserahkan. Kerangka kerja yang berat ini menunjukkan bahwa kemampuan bertahap yang diekstraksi melalui orkestrasi berpotensi melebihi yang diperoleh dari peningkatan model dalam penalaran matematika tingkat atas. Pengujian buta dilakukan oleh Epoch AI, dan untuk mencegah kecurangan, tim DeepMind tidak melihat pertanyaan selama proses berlangsung, dengan setiap pertanyaan diizinkan berjalan selama 48 jam. Hasilnya tidak hanya menduduki posisi teratas di papan peringkat tetapi juga menyelesaikan tiga masalah yang sebelumnya membingungkan semua model. Meskipun disebut sebagai asisten, sistem ini lebih berfungsi seperti kolega kreatif. Ahli teori grup Marc Lackenby menggunakannya dalam penelitian nyata untuk menyelesaikan sebuah konjektur publik dari buku catatan Kourovka. Menariknya, strategi awal yang diajukan oleh sistem tersebut ditandai sebagai ‘cacat’ oleh agen tinjauannya sendiri, tetapi Lackenby mengenali ide cerdas tersembunyi di dalam proposal yang ditolak, mengisi kekurangan sendiri, dan akhirnya menyelesaikan bukti tersebut. Saat ini, co-matematikawan AI hanya tersedia untuk pengujian internal oleh sejumlah matematikawan terbatas.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.23M Popularitas
#
BTCBreaks82000
47.78M Popularitas
#
IsraelStrikesIranBTCPlunges
46.07K Popularitas
#
#DailyPolymarketHotspot
902.98K Popularitas
#
CapitalFlowsBackToAltcoins
4.45M Popularitas

Sematkan

peta situs

DeepMind Meluncurkan Asisten Riset Matematika AI: Kerangka Multi-Agen Melampaui GPT-5.5 Pro dan Memecahkan Masalah yang Sebelumnya Tidak Terpecahkan

Topik Trending

GateSquareMayTradingShare

BTCBreaks82000

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

CapitalFlowsBackToAltcoins

Sematkan