Сайт Pegiua News, дослідник OpenAI Нова Браун висловив свою думку, зазначаючи, що з покращенням роботи моделей штучного інтелекту, стандартні тестові бали, які вимірюють якість моделі, поступово наближаються до контролю за здатністю до висновків.


Стала та унікальна оцінка більше не відображає справжній рівень потужної моделі, і в майбутньому критерій оцінки має перейти до кривої продуктивності, яка базується на здатності до висновків або кількості згенерованих символів.
Як приклад новий тест моделі GPT-5.5, у традиційних початкових тестах не було явної переваги GPT-5.5 порівняно з GPT-5.4, але як тільки було виділено більше здатності до висновків, його продуктивність почала стрімко зростати.
Нова Браун попередив, що поточні оцінки біологічної або мережевої безпеки часто не враховують сталий бюджет для висновків, і коли опоненти на національному рівні інвестують понад мільйон доларів у певну задачу, модель, яка здавалася безпечною, може перевищити червону межу ризику.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено