Anthropic выпустила BioMysteryBench: биологические вопросы, на которые 5 экспертов не смогли ответить, Claude Mythos смог решить 30%

robot
Генерация тезисов в процессе
AIMPACT сообщение, 30 апреля (UTC+8), согласно мониторингу 动察 Beating, Anthropic выпустила BioMysteryBench — набор из 99 биоинформатических задач для оценки. Задачи разработаны экспертами в области на основе реальных наборов данных (секвенирование ДНК/RNA, протеомика, метаболомика и др.), ответы основаны на объективных свойствах данных или метаданных, подтвержденных экспериментами, не зависят от субъективного мнения исследователей. Типичные задачи: определить, какой ген был вырезан в экспериментальной группе по данным RNA-seq, или установить родственные связи по данным секвенирования всего генома. Среда оценки предоставляет контейнер с предустановленными популярными инструментами биоинформатики, программное обеспечение можно установить через pip и conda, есть доступ к публичным базам данных NCBI, Ensembl и др. для скачивания референсных геномов, оценивается только окончательный ответ, путь анализа не ограничен. Из 99 задач, по крайней мере одна решена человеком-экспертом в 76 случаях (человек может решить), оставшиеся 23 — не решены максимум 5 экспертами (сложно для человека).
На задачах, решаемых человеком, точность Claude Opus 4.6 составляет 77,4%, Mythos Preview показывает дальнейшее улучшение. На 23 сложных для человека задач, модели Sonnet 4.6 и более мощные уже могут решить значительную часть, Mythos Preview достигает 30%. Анализ траекторий показывает два основных подхода Claude: первый — использование внутреннего знания, встроенного в обучающие данные, для прямого выполнения логики, которую человеку пришлось бы делать мета-анализом; второй — при неопределенности запуск нескольких методов анализа одновременно, объединяя доказательства. Анализ надежности выявил тонкое различие: на задачах, решаемых человеком, 86% ответов Opus 4.6 в 5 попытках были правильными минимум 4 раза, показатели стабильны; на сложных задачах этот показатель снизился до 44%, более половины правильных ответов получены только 1-2 раза из 5, что скорее похоже на случайное совпадение. Разница в точности объясняется более значительной разницей в надежности.
Genentech и Roche одновременно выпустили схожую по концепции CompBioBench (100 задач по вычислительной биологии), Claude Opus 4.6 показывает в целом 81%, на самых сложных — 69%, что подтверждает выводы BioMysteryBench. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено