BioMysteryBench випущена: 99 реальних задач з біоінформатики, 76 з них розв'язувані людьми, 23 — людські труднощі. Точність Claude Opus 4.6 у розв'язуваних задачах становить 77.4%, при щонайменше 4 правильних відповідях з 5 — 86%, труднощі — 44%. Попередній перегляд Mythos значно покращує результати на складних задачах, близько 30% розв'язків у Hard. Два типи стратегій: внутрішнє міждокументальне логічне виведення та паралельний багатократний аналіз для збору доказів. CompBioBench від Genentech/Roche також показує загальну точність Opus 4.6 — 81%, найскладніші — 69%, що збігається з висновками BioMysteryBench.

MeNews

2026-04-30 07:40:17

Генерація анотацій у процесі

AIMPACT повідомлення, 30 квітня (UTC+8), згідно з моніторингом Датчі Beating, Anthropic випустила BioMysteryBench — набір з 99 біологічно-інформаційних тестів для оцінки. Завдання створені експертами у галузі на основі реальних наборів даних (секвенування ДНК/RNA, протеоміка, метаболоміка тощо), відповіді базуються на об’єктивних властивостях даних або метаданих, підтверджених експериментами, без залежності від суб’єктивної оцінки дослідника. Типові завдання: визначити, який ген був виключений у експериментальній групі за даними RNA-seq, або зробити висновок про родинні зв’язки з усього геномного секвенування. Оцінювальне середовище надає Claude контейнер із попередньо встановленими популярними біоінформатичними інструментами, з можливістю самостійної установки програмного забезпечення через pip і conda, а також доступом до публічних баз даних, таких як NCBI, Ensembl, для завантаження референсних геномів. Оцінюється лише кінцевий відповідь, без обмежень щодо аналізу. З 99 завдань, 76 мають хоча б одного правильного відповідача серед людей (люди здатні розв’язати), решта 23 — не розв’язуються більш ніж 5 експертами (людський рівень складності).
На завданнях, доступних для людського розв’язання, Claude Opus 4.6 має точність 77,4%, Mythos Preview показує додаткове покращення. На 23 складних для людей завдання, Sonnet 4.6 та більш потужні моделі вже здатні розв’язати значну частину, Mythos Preview досягає 30%. Аналіз траєкторії показує, що Claude використовує два основних підходи: по-перше, застосовує внутрішні знання з тренувальних даних, щоб безпосередньо виконати логіку, яку людина могла б зробити лише після мета-аналізу; по-друге, при невпевненості одночасно запускає кілька методів аналізу, беручи перетин кількох ланцюгів доказів.
Аналіз надійності виявляє тонку різницю: у завданнях, доступних для людського розв’язання, 86% правильних відповідей Opus 4.6 у 5 спробах були правильними щонайменше 4 рази, що свідчить про стабільність; у складних для людей завданнях цей показник знижується до 44%, і майже половина правильних відповідей — лише 1-2 рази з 5, що більше схоже на випадковий збіг. Відмінність у точності пояснюється ще й різницею у надійності, яка краще відображає межі можливостей.
Genentech і Roche одночасно випустили схожу за концепцією CompBioBench (100 завдань з обчислювальної біології), де Claude Opus 4.6 досягає в цілому 81%, найскладніші — 69%, що підтверджує висновки BioMysteryBench.
(Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
322.17K Популярність
#
PlatinumCardCreatorExclusive
116.81K Популярність
#
IsraelStrikesIranBTCPlunges
49.03K Популярність
#
#DailyPolymarketHotspot
1.05M Популярність
#
GateSquarePizzaDay
649.28K Популярність

Закріплено

карта сайту

Anthropic опублікувала BioMysteryBench: біологічне питання, на яке 5 експертів не можуть відповісти, Claude Mythos може розв'язати 30%

Популярні теми

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закріплено