DeepMind Meluncurkan Asisten Riset Matematika AI: Kerangka Multi-Agen Melampaui GPT-5.5 Pro dan Memecahkan Masalah yang Sebelumnya Tidak Terpecahkan

Menurut pemantauan oleh Dongcha Beating, Google DeepMind telah merilis seorang co-matematikawan AI, sebuah platform penelitian interaktif untuk matematikawan yang memanfaatkan arsitektur multi-agen. Sistem ini mencapai tingkat akurasi 47,9% pada tolok ukur matematika tingkat penelitian yang paling menantang saat ini, FrontierMath Tier 4 (menyelesaikan 23 dari 48 masalah), langsung melampaui rekor sebelumnya sebesar 39,6% yang ditetapkan oleh GPT-5.5 Pro. Sistem ini tidak menggunakan model dasar generasi berikutnya tetapi justru memanfaatkan Gemini 3.1 Pro. Model itu sendiri hanya mencapai 19% akurasi pada Tier 4, tetapi dengan penambahan kerangka agen, kinerjanya lebih dari dua kali lipat. DeepMind melengkapinya dengan arsitektur berlapis: di tingkat atas, seorang ‘koordinator proyek’ membagi tugas penelitian menjadi beberapa alur kerja, yang kemudian didistribusikan ke sub-agen yang bertanggung jawab untuk pengambilan literatur, pengkodean, dan penalaran. Bukti yang dihasilkan harus melalui proses tinjauan oleh beberapa ‘agen tinjauan’ sebelum dapat diserahkan. Kerangka kerja yang berat ini menunjukkan bahwa kemampuan bertahap yang diekstraksi melalui orkestrasi berpotensi melebihi yang diperoleh dari peningkatan model dalam penalaran matematika tingkat atas. Pengujian buta dilakukan oleh Epoch AI, dan untuk mencegah kecurangan, tim DeepMind tidak melihat pertanyaan selama proses berlangsung, dengan setiap pertanyaan diizinkan berjalan selama 48 jam. Hasilnya tidak hanya menduduki posisi teratas di papan peringkat tetapi juga menyelesaikan tiga masalah yang sebelumnya membingungkan semua model. Meskipun disebut sebagai asisten, sistem ini lebih berfungsi seperti kolega kreatif. Ahli teori grup Marc Lackenby menggunakannya dalam penelitian nyata untuk menyelesaikan sebuah konjektur publik dari buku catatan Kourovka. Menariknya, strategi awal yang diajukan oleh sistem tersebut ditandai sebagai ‘cacat’ oleh agen tinjauannya sendiri, tetapi Lackenby mengenali ide cerdas tersembunyi di dalam proposal yang ditolak, mengisi kekurangan sendiri, dan akhirnya menyelesaikan bukti tersebut. Saat ini, co-matematikawan AI hanya tersedia untuk pengujian internal oleh sejumlah matematikawan terbatas.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan