DeepMind запускає дослідницького помічника з штучного інтелекту для математики: багатогравецька структура перевищує GPT-5.5 Pro і розв’язує раніше нерозв’язні проблеми

Згідно з моніторингом Dongcha Beating, Google DeepMind випустила співматематика на базі штучного інтелекту — інтерактивну дослідницьку платформу для математиків, яка використовує архітектуру з кількома агентами. Система досягла точності 47,9% на найскладнішому дослідницькому рівні математичних тестів, FrontierMath Tier 4 (розв’язавши 23 з 48 задач), безпосередньо перевищивши попередній рекорд у 39,6%, встановлений GPT-5.5 Pro. Ця система не використовувала модель фундаментального рівня наступного покоління, а натомість застосувала Gemini 3.1 Pro. Саме модель досягла лише 19% точності на Tier 4, але з додаванням рамки агентів її продуктивність більш ніж подвоїлася. DeepMind обладнала її багатошаровою архітектурою: на верхньому рівні «координатор проекту» розбиває дослідницькі завдання на кілька робочих процесів, які потім розподіляються між суб-агентами, відповідальними за пошук літератури, програмування та логіку. Докази, які генеруються, повинні пройти процес перевірки кількома «агентами-ревізорами» перед поданням. Це складне каркасне рішення демонструє, що додаткові можливості, отримані через оркестрування, потенційно можуть перевищувати ті, що здобуваються шляхом оновлення моделей у топовому рівні математичного мислення. Бліда перевірка була проведена Epoch AI, і щоб запобігти шахрайству, команда DeepMind не бачила запитання протягом усього процесу, кожне запитання дозволялося запускати протягом 48 годин. Результати не лише очолили рейтинг, а й розв’язали три задачі, які раніше ставили у глухий кут усі моделі. Хоча її називають помічником, вона більше схожа на творчого колегу. Експерт з теорії груп Марк Лакенбі використовував її у реальних дослідженнях для розв’язання публічної гіпотези з нотатника Коуровки. Цікаво, що початкова стратегія, запропонована системою, була позначена її власним агентом-ревізором як «недосконала», але Лакенбі розпізнав у відхиленій пропозиції хитрий задум, заповнив прогалини сам і врешті-решт завершив доказ. Наразі AI-співматематик доступний лише для внутрішнього тестування обмеженій кількості математиків.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити