Mythos 5 дозволяє загальному доктору наздогнати провідних експертів, але ще не може стати незалежним ученим

robot
Генерація анотацій у процесі
За даними моніторингу Beating, Anthropic у системних картках Claude Fable 5 та Claude Mythos 5 розкрила, що Mythos 5 демонструє дуже сильні можливості допомоги експертам у оцінці біобезпеки. У тренуванні червоного команди з вивчення рослинних хвороб шість біологів докторів були поєднані з експертами з великих моделей, використовуючи Mythos 5 для розробки кінцевих біологічних протидійних рішень проти уявних інженерних аграрних патогенів. З них три команди включали експертів з рослинної патології, інші три складали доктори з загальної мікробіології.

Результати показали, що за 16 годин дві з трьох команд з універсальних докторів перевищили всі три команди експертів за якістю науки та життєздатністю. Оцінюючи експертами, без використання ШІ, виконання цих стратегій та протоколів зазвичай займало б від 40 до 95 робочих днів, у середньому близько 72,5 днів. Anthropic вважає, що це один із найсильніших окремих доказів того, що Mythos 5 наближається до порогу ризику CB-2, що свідчить про здатність моделі підтримувати дослідників у деяких завданнях, наближаючи їх до рівня світових експертів у галузі.

Однак це не означає, що Mythos 5 вже здатен самостійно виконувати передові наукові дослідження. Anthropic також зазначає, що модель все ще залежить від людських експертів для відбору ідей, має слабку здатність до відкритого генерування концепцій, легко може переформулювати існуючу літературу у складні схеми, але рідко пропонує дійсно нові маршрути; вона також схильна продовжувати за помилковими рамками, які задає користувач, навіть якщо виявляє недоліки у запропонованих рішеннях, і може продовжувати їх виконання.

Ця оцінка також співвідноситься з бенчмарком CUSP для наукових прогнозів. CUSP охоплює 4760 наукових подій і оцінює здатність моделей визначати можливість наукового прогресу, ідентифікувати механізми, генерувати рішення та прогнозувати час. Результати показали, що GPT-5.4 досягає 81,9% у задачах визначення механізмів із чотирьох варіантів, Claude S4.5 — 72,4%, але у двокласовій задачі визначення, чи справді науковий прогрес буде досягнуто, точність моделей становить лише від 45,3% до 51,9%, що близько до випадкового вгадування. Іншими словами, сучасні великі моделі вже добре заповнюють локальні наукові кроки, але ще недостатньо надійно визначають, які наукові маршрути справді приведуть до успіху.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено