币界网消息，OpenAI发布了计算生物学评测基准GeneBench-Pro，用来测试AI智能体在面对基因组学和转化医学等复杂科研场景时的多步决策能力。新基准共包含129个问题（其中82个经过外部专家评审），通过计算机模拟生成具有明确因果关系的数据，防止模型通过走捷径或迎合出题人偏好来作弊。测试结果显示，顶尖模型在处理包含量化不确定性的科学推理时依然非常吃力。最强的GPT-5.6在开启Pro模式下仅能达到31.5%的正确率，而Claude Opus 4.8的正确率仅有16.0%。研究团队指出，模型普遍存在「能发现异常但不会修正后续分析」的脱节现象，经常选错统计方法或坚持错误的科研方向。

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

3 лайків

Нагородити
3
3
2
Поділіться

Прокоментувати

Додати коментар

ShellsLeftBehindByTheReceding

· 4год тому

Цей бал змусив мене замовкнути, Claude Opus всього 16%?

Переглянути оригіналвідповісти на0

Salt-BakedSentimentChart

· 4год тому

129 питань, 82 з яких перевірені експертами, запобігання шахрайству дійсно продумане, але модель навіть обрала неправильний статистичний метод, що свідчить про те, що базова логіка все ще відсутня.

Переглянути оригіналвідповісти на0

PixelMetaverseRaccoon

· 4год тому

Багатокрокові рішення легкі, але коли виявляється, що помилка, і все одно наполегливо йти далі — хіба це не те, як я проводжу експерименти?

Переглянути оригіналвідповісти на0

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
534,41K Популярність
#
CirclePlunges17%
4,16M Популярність
#
IsraelStrikesIranBTCPlunges
67,51K Популярність
#
PredictWorldCupShare20000U
163,75K Популярність
#
GateCardPointsSystemLaunched
120,19K Популярність

Закріплено

карта сайту

OpenAI представляє бенчмарк обчислювальної біології GeneBench-Pro, повна версія GPT-5.6 має лише 30% точності.

Популярні теми

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закріплено