Anthropic опублікувала BioMysteryBench: біологічне питання, на яке 5 експертів не можуть відповісти, Claude Mythos може розв'язати 30%

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 30 квітня (UTC+8), згідно з моніторингом Датчі Beating, Anthropic випустила BioMysteryBench — набір з 99 біологічно-інформаційних тестів для оцінки. Завдання створені експертами у галузі на основі реальних наборів даних (секвенування ДНК/RNA, протеоміка, метаболоміка тощо), відповіді базуються на об’єктивних властивостях даних або метаданих, підтверджених експериментами, без залежності від суб’єктивної оцінки дослідника. Типові завдання: визначити, який ген був виключений у експериментальній групі за даними RNA-seq, або зробити висновок про родинні зв’язки з усього геномного секвенування. Оцінювальне середовище надає Claude контейнер із попередньо встановленими популярними біоінформатичними інструментами, з можливістю самостійної установки програмного забезпечення через pip і conda, а також доступом до публічних баз даних, таких як NCBI, Ensembl, для завантаження референсних геномів. Оцінюється лише кінцевий відповідь, без обмежень щодо аналізу. З 99 завдань, 76 мають хоча б одного правильного відповідача серед людей (люди здатні розв’язати), решта 23 — не розв’язуються більш ніж 5 експертами (людський рівень складності).
На завданнях, доступних для людського розв’язання, Claude Opus 4.6 має точність 77,4%, Mythos Preview показує додаткове покращення. На 23 складних для людей завдання, Sonnet 4.6 та більш потужні моделі вже здатні розв’язати значну частину, Mythos Preview досягає 30%. Аналіз траєкторії показує, що Claude використовує два основних підходи: по-перше, застосовує внутрішні знання з тренувальних даних, щоб безпосередньо виконати логіку, яку людина могла б зробити лише після мета-аналізу; по-друге, при невпевненості одночасно запускає кілька методів аналізу, беручи перетин кількох ланцюгів доказів.
Аналіз надійності виявляє тонку різницю: у завданнях, доступних для людського розв’язання, 86% правильних відповідей Opus 4.6 у 5 спробах були правильними щонайменше 4 рази, що свідчить про стабільність; у складних для людей завданнях цей показник знижується до 44%, і майже половина правильних відповідей — лише 1-2 рази з 5, що більше схоже на випадковий збіг. Відмінність у точності пояснюється ще й різницею у надійності, яка краще відображає межі можливостей.
Genentech і Roche одночасно випустили схожу за концепцією CompBioBench (100 завдань з обчислювальної біології), де Claude Opus 4.6 досягає в цілому 81%, найскладніші — 69%, що підтверджує висновки BioMysteryBench.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено