За даними моніторингу Beating, Anthropic у системних картках Claude Fable 5 та Claude Mythos 5 розкрила, що Mythos 5 демонструє дуже сильні можливості допомоги експертам у оцінці біобезпеки. У тренуванні червоного команди з ботаніки, де 6 докторів біології були поєднані з експертами з великих моделей, використовуючи Mythos 5 для розробки кінцевих біо-захисних рішень проти уявних інженерних аграрних патогенів. З них 3 команди включали експертів з ботаніки, інші 3 складали доктори з мікробіології загального профілю. Результати показали, що за 16 годин 2 з 3 команд з універсальними докторами перевищили всі 3 команди експертів за якістю науки та життєздатністю. Оцінка експертів показала, що без AI-інструментів для розробки цих стратегій та протоколів зазвичай потрібно 40–95 робочих днів, у середньому близько 72,5 днів. Anthropic вважає, що це один із найсильніших окремих доказів того, що Mythos 5 наближається до порогу ризику CB-2, що свідчить про здатність моделі підтримувати дослідників у деяких завданнях, забезпечуючи знання рівня світових експертів. Але це не означає, що Mythos 5 вже здатна самостійно виконувати передові наукові дослідження. Anthropic також зазначає, що модель все ще залежить від людських експертів для відбору ідей, має слабку здатність до відкритого генерування, легко може переформулювати існуючу літературу у складні схеми, але рідко пропонує дійсно нові маршрути; вона також схильна продовжувати за помилковими рамками користувача, навіть якщо виявляє недоліки рішення, і може продовжувати виконання. Це судження також співпадає з показниками на науковому прогнозувальному бенчмарку CUSP. CUSP охоплює 4760 наукових подій і оцінює здатність моделей визначати життєздатність наукового прогресу, ідентифікувати механізми, генерувати рішення та прогнозувати час. Результати показали, що GPT-5.4 досягає 81,9% у задачах визначення механізмів з чотирьох варіантів, Claude S4.5 — 72,4%, але у двійкових задачах визначення, чи справді науковий прогрес буде досягнуто, точність моделей становить лише 45,3% до 51,9%, що близько до випадкового вгадування. Іншими словами, сучасні великі моделі вже добре доповнюють локальні наукові кроки, але ще недостатньо надійно визначають, які наукові маршрути справді приведуть до успіху.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateIPOAccessSpaceX
5.29M Популярність
#
AnthropicReleasesFable5Model
644.04K Популярність
#
IsraelStrikesIranBTCPlunges
56.94K Популярність
#
MyGateTradeStory
11.06K Популярність
#
SpaceXIPOAttractsOver250BillionInOrders
1.4M Популярність

Закріплено

карта сайту

Mythos 5 дозволяє загальному доктору наздогнати провідних експертів, але ще не може стати незалежним ученим

Популярні теми

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Закріплено