Згідно з моніторингом Beating, Google DeepMind випустила AI співматематика — багатокористувацький інтерактивний дослідницький робочий стіл для математиків. Ця система на даному етапі досягла 47,9% точності на найскладнішому дослідницькому бенчмарку FrontierMath Tier 4 (розв’язано 23 з 48 задач), безпосередньо перевищуючи попередній рекорд GPT-5.5 Pro з 39,6%. Ця система не використовує нове покоління базової платформи, а працює безпосередньо на Gemini 3.1 Pro. Ця модель сама по собі при запуску Tier 4 має лише 19%, але додавання рамки агентів подвоїло і більше результати. DeepMind створила для неї багаторівневу архітектуру: верхній рівень — «координатор проекту», який розбиває дослідницьке завдання на кілька робочих потоків, що потім розподіляються між підагентами для пошуку літератури, написання коду та логічних висновків. Наведені докази також проходять черговий раунд оцінки, яку проводять кілька «агентів-редакторів», і лише після схвалення їх можна подати. Ця складна структура доводить, що у високорівневому математичному мисленні організація може давати приріст здатностей, який може перевищувати навіть нове покоління моделей. Бліц-тестування проводиться Epoch AI, щоб запобігти шахрайству, команда DeepMind не бачить завдання протягом усього процесу, і кожна задача має 48 годин на розв’язання. Результат не лише піднявся на вершину, але й система розв’язала 3 задачі, які раніше були недоступні для всіх інших моделей. Хоча її називають помічником, вона більше схожа на колегу з нестандартним мисленням. Експерт з групової теорії Марк Лакенбі у реальних дослідженнях використав її для розв’язання однієї з відкритих гіпотез у «Коуровка-нотатках». Цікаво, що спочатку запропонована система стратегія була визнана її власним агентом-редактором «недосконалою», але Лакенбі помітив у цьому хитромудру ідею, доповнив її і завершив доказ. Наразі AI співматематик доступний у закритому тестуванні для обмеженої кількості математиків.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
987.49K Популярність
#
BTCBackAbove80K
59.44M Популярність
#
IsraelStrikesIranBTCPlunges
45.52K Популярність
#
JapanTokenizesGovernmentBonds
1.9M Популярність
#
#DailyPolymarketHotspot
865.71K Популярність

Закріпити

карта сайту

Популярні теми

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закріпити