Команда из Беркли объявила о взломе 8 основных эталонов оценки интеллектуальных агентов и открытии исходного кода инструментов

ME News Новости, 19 апреля (UTC+8), группа исследований искусственного интеллекта Беркли (berkeley_ai) передала заявление Dawn Song, объявив, что их команда успешно преодолела 8 основных критериев оценки интеллектуальных агентов. Команда решила открыть исходный код используемых инструментов для достижения этого результата и назвала его BenchJack. Этот инструмент описывается как "проникновение в тесты оценки", предназначенное для помощи другим разработчикам в активном тестировании и выявлении потенциальных слабых мест в их системах оценки. (Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-46033407
· 5ч назад
Дон Сон действительно стабилен в области пересечения безопасности и искусственного интеллекта, на этот раз снова попала в точку
Посмотреть ОригиналОтветить0
GateUser-f2d5f4c0
· 6ч назад
Открытые инструменты ценнее, чем статьи, по крайней мере позволяют всем проверить, насколько надежен benchmark.
Посмотреть ОригиналОтветить0
ThePatienceRequiredFor
· 6ч назад
8 основных бенчмарков полностью сломаны, кажется, сейчас у agent eval барьер меньше, чем ожидалось
Посмотреть ОригиналОтветить0
GovernanceVotingTug-Of-WarKing
· 6ч назад
Концепция тестирования на проникновение, ориентированная на оценку, довольно новая; раньше все было связано с тестированием моделей, а теперь — тестирование самих задач.
Посмотреть ОригиналОтветить0
NeonIceMelt
· 7ч назад
Команда Dawn Song поступила очень по-беркли: сначала взяли под контроль, затем выпустили исходный код, типичный академический хакерский стиль.
Посмотреть ОригиналОтветить0
DustyAlpha
· 7ч назад
berkeley_ai показывает себя очень жестко, с нетерпением жду, чтобы увидеть, как именно они обходят эти тесты.
Посмотреть ОригиналОтветить0
Wax-SealedPrivateKey
· 7ч назад
BenchJack это имя немного забавное, системе оценки тоже нужно провести собственное тестирование на проникновение.
Посмотреть ОригиналОтветить0
  • Закреплено