DeepMind merilis asisten penelitian matematika AI: arsitektur Multi-Agent mengalahkan GPT-5.5Pro, juga memecahkan masalah sulit yang sebelumnya "tak terpecahkan"

Menurut pemantauan Beating Monitoring, Google DeepMind merilis AI co-mathematician, sebuah meja kerja penelitian interaktif multi-agen yang digunakan oleh matematikawan. Sistem ini mencapai tingkat keberhasilan 47,9% pada standar matematika penelitian paling sulit saat ini, FrontierMath Tier 4 (menyelesaikan 23/48 soal), langsung melampaui rekor tertinggi sebelumnya GPT-5.5 Pro yang sebesar 39,6%. Sistem ini tidak menggunakan basis generasi baru, melainkan langsung memakai Gemini 3.1 Pro. Model ini sendiri hanya mampu mencapai 19% pada Tier 4 secara mandiri, tetapi setelah ditambahkan kerangka kerja Agen, hasilnya meningkat dua kali lipat lebih. DeepMind membangun sistem arsitektur berlapis: lapisan atas adalah “koordinator proyek” yang membagi tugas penelitian menjadi beberapa alur kerja, kemudian didistribusikan ke sub-agen yang melakukan pencarian literatur, penulisan kode, dan penalaran. Buktinya juga harus melewati satu putaran peninjauan oleh beberapa “agen peninjau”, dan hanya setelah disetujui dapat diajukan. Kerangka kerja yang berat ini membuktikan bahwa dalam penalaran matematika tingkat tinggi, pengaturan yang tepat dapat meningkatkan kemampuan secara signifikan, bahkan lebih besar daripada peningkatan model. Pengujian buta dilakukan oleh Epoch AI, dan untuk mencegah kecurangan, tim DeepMind tidak melihat soal sepanjang proses, dengan setiap soal diizinkan berjalan selama 48 jam. Hasilnya tidak hanya mencapai puncak, tetapi sistem juga menyelesaikan 3 soal yang sebelumnya tidak bisa diselesaikan oleh semua model lain. Meskipun disebut sebagai asisten, sistem ini lebih mirip rekan kerja yang mampu berimajinasi. Ahli teori grup Marc Lackenby menggunakannya dalam penelitian nyata untuk memecahkan sebuah dugaan terbuka dalam buku catatan Kourovka. Menariknya, strategi awal yang diberikan sistem ditandai oleh agen peninjau sebagai “berkekurangan”, tetapi Lackenby melihat adanya ide cerdik tersembunyi dalam solusi yang salah tersebut, lalu menambal kekurangannya sendiri, dan akhirnya menyelesaikan pembuktian. Saat ini, AI co-mathematician hanya dibuka untuk uji coba internal oleh sejumlah kecil matematikawan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan