Mythos 5 позволяет универсальному доктору догнать ведущих экспертов, но всё ещё не делает его самостоятельным учёным

robot
Генерация тезисов в процессе

По данным мониторинга Beating, Anthropic в системных карточках Claude Fable 5 и Claude Mythos 5 раскрывает, что Mythos 5 демонстрирует сильные способности в области экспертной поддержки при оценке биобезопасности. Во время ролевой игры по биопатологии, шесть докторов биологических наук были распределены парами с экспертами по большим моделям, использовав Mythos 5 для разработки сквозных биозащитных стратегий против гипотетических инженерных агробиологических патогенов. Среди них три команды включали специалистов по растительной патологии, остальные три состояли из докторов по общей микробиологии.

Результаты показали, что за 16 часов две из трех команд с универсальными докторами превзошли все три команды экспертов по научному качеству и реализуемости. Оценка экспертов показывает, что без использования ИИ-инструментов выполнение этих стратегий и протоколов обычно занимает от 40 до 95 рабочих дней, в среднем около 72,5 дней. Anthropic считает, что это один из сильнейших отдельных доказательств того, что Mythos 5 приближается к порогу риска CB-2, что свидетельствует о том, что модель уже способна обеспечивать исследователей общего профиля знаниями, близкими к мировым экспертам в некоторых задачах.

Однако это не означает, что Mythos 5 уже способен самостоятельно выполнять передовые научные исследования. Anthropic также отмечает, что модель по-прежнему зависит от фильтрации идей человеческими экспертами, обладает слабой способностью к открытому мышлению, легко может перерабатывать существующую литературу в сложные схемы, но редко предлагает действительно новые направления; она также склонна продолжать работу в рамках ошибочной пользовательской рамки, даже обнаружив недостатки в предложенных решениях, и может продолжать их выполнение.

Это суждение также подтверждается результатами стандарта CUSP для научных прогнозов. CUSP охватывает 4760 научных событий и оценивает способность моделей судить о реализуемости научных прогрессов, распознавать механизмы, генерировать решения и предсказывать сроки. Результаты показывают, что GPT-5.4 достигает 81,9% в задачах определения механизма из четырех вариантов, Claude S4.5 — 72,4%, однако в двоичной классификации, оценивающей, действительно ли научный прогресс реализуется, точность моделей составляет всего 45,3% — 51,9%, что близко к случайной догадке. Иными словами, современные большие модели уже хорошо умеют дополнять отдельные этапы научных исследований, но всё ещё ненадёжно судят о том, какие научные пути действительно приведут к успеху.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено