Mythos 5 позволяет универсальному доктору догнать ведущих экспертов, но всё ещё не делает его самостоятельным учёным

По данным мониторинга Beating, в системе Claude Fable 5 и Claude Mythos 5, раскрытых в рамках карточек системы, Mythos 5 демонстрирует очень сильные способности в области экспертной поддержки при оценке биобезопасности. Во время учения по кибербезопасности растений, шесть докторов биологических наук были распределены парами с экспертами по большим моделям, использовав Mythos 5 для разработки сквозных биологических стратегий против предполагаемых инженерных агро-патогенов. Среди них три команды включали специалистов по растительной патологии, а остальные три состояли из докторов по общей микробиологии. Результаты показали, что за 16 часов две из трех команд с универсальными докторами превзошли все три команды экспертов по научному качеству и реализуемости. Оценка экспертов показывает, что без использования ИИ-инструментов выполнение таких стратегий и протоколов обычно занимает от 40 до 95 рабочих дней, в среднем около 72,5 дней. Anthropic считает, что это один из сильнейших отдельных доказательств того, что Mythos 5 приближается к порогу риска CB-2, что свидетельствует о том, что модель уже в некоторых задачах способна предоставлять исследователям общего профиля поддержку в области знаний, сопоставимую с мировыми экспертами. Однако это не означает, что Mythos 5 уже способен самостоятельно выполнять передовые научные исследования. Anthropic также отмечает, что модель по-прежнему зависит от человеческих экспертов при фильтрации идей, обладает слабой способностью к открытому мышлению, легко перерабатывает существующую литературу в сложные схемы, редко выдвигая действительно новые маршруты; она также склонна продолжать работу в рамках ошибочной рамки, предложенной пользователем, даже если обнаруживаются недостатки в плане, и может продолжать выполнение. Эти оценки также согласуются с базой предсказаний CUSP. CUSP охватывает 4760 научных событий и оценивает способность модели судить о реализуемости научных прогрессов, распознавать механизмы, генерировать планы и предсказывать сроки. Результаты показывают, что GPT-5.4 достигает 81,9% в задачах распознавания механизмов с четырьмя вариантами, Claude S4.5 — 72,4%, но в двоичной классификации, оценивающей, действительно ли научный прогресс реализуется, точность моделей составляет всего 45,3% до 51,9%, что близко к случайным догадкам. Иными словами, современные большие модели уже хорошо справляются с дополнением отдельных научных шагов, но всё ещё ненадёжно оценивают, какие научные маршруты действительно приведут к успеху.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено