OpenAI представляє бенчмарк обчислювальної біології GeneBench-Pro, повна версія GPT-5.6 має лише 30% точності.

robot
Генерація анотацій у процесі
币界网消息,OpenAI发布了计算生物学评测基准GeneBench-Pro,用来测试AI智能体在面对基因组学和转化医学等复杂科研场景时的多步决策能力。新基准共包含129个问题(其中82个经过外部专家评审),通过计算机模拟生成具有明确因果关系的数据,防止模型通过走捷径或迎合出题人偏好来作弊。测试结果显示,顶尖模型在处理包含量化不确定性的科学推理时依然非常吃力。最强的GPT-5.6在开启Pro模式下仅能达到31.5%的正确率,而Claude Opus 4.8的正确率仅有16.0%。研究团队指出,模型普遍存在「能发现异常但不会修正后续分析」的脱节现象,经常选错统计方法或坚持错误的科研方向。
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
ShellsLeftBehindByTheReceding
· 4год тому
Цей бал змусив мене замовкнути, Claude Opus всього 16%?
Переглянути оригіналвідповісти на0
Salt-BakedSentimentChart
· 4год тому
129 питань, 82 з яких перевірені експертами, запобігання шахрайству дійсно продумане, але модель навіть обрала неправильний статистичний метод, що свідчить про те, що базова логіка все ще відсутня.
Переглянути оригіналвідповісти на0
PixelMetaverseRaccoon
· 4год тому
Багатокрокові рішення легкі, але коли виявляється, що помилка, і все одно наполегливо йти далі — хіба це не те, як я проводжу експерименти?
Переглянути оригіналвідповісти на0
  • Закріплено