Аттестация агента: Самая сложная задача в Fable 5 по-прежнему остается невыполненной, стоимость одного вопроса в 4-12 раз выше

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, Университет Калифорнии в Беркли, руководимый RDI, совместно с сотнями отраслевых экспертов, выпустили новый стандарт оценки интеллектуальных агентов Agents' Last Exam (ALE), предназначенный для оценки способности интеллектуальных систем выполнять реальные задачи в области цифровых технологий. ALE охватывает 55 подотраслей цифровых профессиональных областей, собрав более 1500 проверочных задач, взятых из реальных проектов человеческих экспертов, поддерживая проверку результатов в графическом интерфейсе (GUI) и командной строке (CLI). Первые тесты включали передовые системы Fable 5, GPT-5.5 и Composer 2.5. Согласно последнему сравнению официальных данных, в самых сложных задачах, требующих постоянных рассуждений и глубоких профессиональных знаний, все протестированные интеллектуальные системы показали 0% успешных решений, включая только что выпущенную Fable 5, которая также сдала пустую работу. Это связано с тем, что тестирование активировало меры безопасности, из-за чего около 35% задач Fable 5 были возвращены и запущены на старой версии Opus 4.8, что значительно снизило общую производительность по сравнению с другими системами. По стоимости API для одной задачи, Fable 5 обходится примерно в 15.70 долларов, что значительно выше GPT-5.5 (3.80 долларов) и Composer 2.5 (1.33 доллара), в 4–12 раз дороже при выполнении одинаковых задач. Также было обнаружено, что наиболее распространенной причиной неудач интеллектуальных систем является преждевременное объявление успеха, когда система торопится завершить работу без фактической проверки результатов, пропуская файлы или ошибочно считая данные. Для командных систем был одновременно выпущен поднабор ALE-CLI. В сравнении с существующими Terminal-Bench и SWE-bench-Pro, ALE-CLI охватывает 40 подотраслей, а среднее время выполнения одной задачи человеком достигает нескольких часов или даже недель. В командных тестах лучший показатель успешности систем составляет всего 25,2%. Команда оценки отметила, что эпоха удобных систем уже наступила, но до полноценной замены человека на рабочем месте еще очень далеко. (Источник: MLion)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено