DeepMind запускает помощника по математике на базе ИИ: многоагентная структура превосходит GPT-5.5 Pro и решает ранее неразрешимые задачи

Согласно мониторингу Dongcha Beating, Google DeepMind выпустила совместного математического ИИ, интерактивную исследовательскую платформу для математиков, использующую архитектуру с несколькими агентами. Эта система достигла точности 47,9% на самом сложном исследовательском математическом бенчмарке — FrontierMath Tier 4 (решив 23 из 48 задач), прямо превзойдя предыдущий рекорд в 39,6%, установленный GPT-5.5 Pro. В системе не использовалась модель следующего поколения, а вместо этого применялась Gemini 3.1 Pro. Самая модель показала только 19% точности на Tier 4, но с добавлением рамочной структуры агентства её производительность более чем удвоилась. DeepMind оснастила её многоуровневой архитектурой: на верхнем уровне «координатор проекта» разбивает исследовательские задачи на несколько рабочих процессов, которые затем распределяются между суб-агентами, отвечающими за поиск литературы, кодирование и рассуждение. Созданные доказательства должны пройти проверку несколькими «агентами-ревьюерами» перед отправкой. Эта сложная структура демонстрирует, что накопленные через оркестрацию возможности могут потенциально превосходить те, что достигаются за счёт обновления моделей в области топового математического рассуждения. Слепое тестирование проводилось Epoch AI, и чтобы предотвратить мошенничество, команда DeepMind не видела вопросы на протяжении всего процесса, при этом каждый вопрос мог обрабатываться в течение 48 часов. Результаты не только заняли первое место в таблице лидеров, но и решили три задачи, которые ранее ставили в тупик все модели. Хотя его называют помощником, он больше похож на творческого коллегу. Эксперт по теории групп Марк Лаккенби использовал его в реальных исследованиях для решения публичной гипотезы из блокнота Коуровки. Интересно, что первоначальную стратегию, предложенную системой, отметили как «ошибочную» её собственным агентом-ревьюером, но Лаккенби распознал в отвергнутом предложении хитрую идею, сам заполнил пробелы и в итоге завершил доказательство. В настоящее время AI-совместный математик доступен только для внутреннего тестирования ограниченному числу математиков.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить