Атестація агента: Найскладніше завдання у Fable 5 все ще залишається нездійсненим, вартість однієї задачі у 4-12 разів вища

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, Каліфорнійський університет у Берклі, керівник RDI, у співпраці з кількома сотнями галузевих експертів, запустили новий базовий тест для оцінки штучного інтелекту Agents' Last Exam (ALE), який використовується для оцінки здатності інтелектуальних агентів виконувати реальні цифрові професійні завдання. ALE охоплює 55 підгалузей цифрових професій, зібрав понад 1500 перевірочних завдань, що походять із реальних проектів людських експертів, підтримує перевірку результатів у графічному та командному інтерфейсах. Перші тести охоплювали передові системи, такі як Fable 5, GPT-5.5 і Composer 2.5. Останній офіційний сайт показує, що у найскладніших завданнях, що вимагають постійного мислення та глибоких професійних знань, усі протестовані інтелектуальні агенти мають 0% успішності, а Fable 5, який був щойно випущений цього тижня, також не показав результатів. Це головним чином через те, що тестування активувало політику безпеки, через що приблизно 35% завдань Fable 5 було повернуто до старої версії Opus 4.8, що спричинило значне зниження загальної продуктивності порівняно з іншими системами. Щодо вартості API для одного завдання, Fable 5 коштує приблизно 15.70 доларів США, що значно вище за GPT-5.5 з 3.80 доларами та Composer 2.5 з 1.33 доларами, витрати на одне завдання у цьому випадку в 4-12 разів більші. Також було виявлено, що найпоширенішою причиною невдач інтелектуальних агентів є передчасне оголошення успіху, коли ще не було фактичної перевірки результатів, або пропущені файли та помилки у даних. Для командних інтелектуальних агентів команда оцінювання одночасно випустила підмножину ALE-CLI. У порівнянні з існуючими Terminal-Bench і SWE-bench-Pro, ALE-CLI охоплює 40 підгалузей, а середній час виконання завдання людиною становить кілька годин або навіть тижнів. У командних тестах найкращі інтелектуальні агенти мають лише 25.2% успішності. Команда оцінювання зазначає, що ера зручних інтелектуальних агентів вже настала, але до справжньої здатності замінити людину ще дуже далеко. (Джерело: MLion)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено