ME AI Сообщение, согласно мониторингу Beating, Университет Калифорнии в Беркли, руководимый RDI, совместно с сотнями отраслевых экспертов, выпустили новый стандарт оценки интеллектуальных агентов Agents' Last Exam (ALE), предназначенный для оценки способности интеллектуальных систем выполнять реальные задачи в области цифровых технологий. ALE охватывает 55 подотраслей цифровых профессиональных областей, собрав более 1500 проверочных задач, взятых из реальных проектов человеческих экспертов, поддерживая проверку результатов в графическом интерфейсе (GUI) и командной строке (CLI). Первые тесты включали передовые системы Fable 5, GPT-5.5 и Composer 2.5. Согласно последнему сравнению официальных данных, в самых сложных задачах, требующих постоянных рассуждений и глубоких профессиональных знаний, все протестированные интеллектуальные системы показали 0% успешных решений, включая только что выпущенную Fable 5, которая также сдала пустую работу. Это связано с тем, что тестирование активировало меры безопасности, из-за чего около 35% задач Fable 5 были возвращены и запущены на старой версии Opus 4.8, что значительно снизило общую производительность по сравнению с другими системами. По стоимости API для одной задачи, Fable 5 обходится примерно в 15.70 долларов, что значительно выше GPT-5.5 (3.80 долларов) и Composer 2.5 (1.33 доллара), в 4–12 раз дороже при выполнении одинаковых задач. Также было обнаружено, что наиболее распространенной причиной неудач интеллектуальных систем является преждевременное объявление успеха, когда система торопится завершить работу без фактической проверки результатов, пропуская файлы или ошибочно считая данные. Для командных систем был одновременно выпущен поднабор ALE-CLI. В сравнении с существующими Terminal-Bench и SWE-bench-Pro, ALE-CLI охватывает 40 подотраслей, а среднее время выполнения одной задачи человеком достигает нескольких часов или даже недель. В командных тестах лучший показатель успешности систем составляет всего 25,2%. Команда оценки отметила, что эпоха удобных систем уже наступила, но до полноценной замены человека на рабочем месте еще очень далеко. (Источник: MLion)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
MyGateTradeStory
133,76K Популярность
#
TradFiCFDGoldMaster
1,99M Популярность
#
IsraelStrikesIranBTCPlunges
57,38K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
765,22K Популярность
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5,72M Популярность

Закреплено

Карта сайта

Аттестация агента: Самая сложная задача в Fable 5 по-прежнему остается невыполненной, стоимость одного вопроса в 4-12 раз выше

Популярные темы

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

Закреплено