OpenAI представила бенчмарк вычислительной биологии GeneBench-Pro, точность полной версии GPT-5.6 составляет всего 30%.

robot
Генерация тезисов в процессе
币界网消息,OpenAI发布了计算生物学评测基准GeneBench-Pro,用来测试AI智能体在面对基因组学和转化医学等复杂科研场景时的多步决策能力。新基准共包含129个问题(其中82个经过外部专家评审),通过计算机模拟生成具有明确因果关系的数据,防止模型通过走捷径或迎合出题人偏好来作弊。测试结果显示,顶尖模型在处理包含量化不确定性的科学推理时依然非常吃力。最强的GPT-5.6在开启Pro模式下仅能达到31.5%的正确率,而Claude Opus 4.8的正确率仅有16.0%。研究团队指出,模型普遍存在「能发现异常但不会修正后续分析」的脱节现象,经常选错统计方法或坚持错误的科研方向。
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
ShellsLeftBehindByTheReceding
· 2ч назад
Увидев этот балл, я замолчал, у Claude Opus всего 16%?
Посмотреть ОригиналОтветить0
Salt-BakedSentimentChart
· 2ч назад
Из 129 вопросов 82 были проверены экспертами, в части предотвращения списывания действительно постарались, но модель даже метод статистики выбрала неправильно, что говорит о нехватке базовой логики.
Посмотреть ОригиналОтветить0
PixelMetaverseRaccoon
· 2ч назад
Многошаговые решения просты, но когда понимаешь, что ошибся, и всё равно упорно идёшь дальше — разве это не похоже на мои эксперименты?
Посмотреть ОригиналОтветить0
  • Закреплено