4,760 milestones fed in, predicting new discoveries is still at a coin flip level. Even with strong mechanistic reasoning, when faced with unknown fields without standard answers, it's still clueless.

Переглянути оригінал
CoinNetwork
ШІ наразі не може виступати самостійним ученим, оцінювання CUSP виявляє відсутність у великих моделей перспективного дослідницького бачення
Стенфорд/Оксфорд/Інститут досліджень штучного інтелекту Еннлін запустили часовий бенчмарк CUSP, щоб оцінити здатність ШІ прогнозувати науковий прогрес. Тестування GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 та інших показало хороші результати у механізмовому мисленні щодо існуючих технологічних шляхів, але прогнозування нових відкриттів майже випадкове, і існує систематичне запізнення щодо часу проривів. CUSP базується на часових знаннях, аналізує передові досягнення у Nature/Science, і охоплює 4 760 віх, 17 429 завдань. Висновок полягає в тому, що у наукових дослідженнях без стандартних відповідей існуючі моделі не здатні забезпечити надійне передбачення.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено