ME News Новости, 19 апреля (UTC+8), группа исследований искусственного интеллекта Беркли (berkeley_ai) передала заявление Dawn Song, объявив, что их команда успешно преодолела 8 основных критериев оценки интеллектуальных агентов. Команда решила открыть исходный код используемых инструментов для достижения этого результата и назвала его BenchJack. Этот инструмент описывается как "проникновение в тесты оценки", предназначенное для помощи другим разработчикам в активном тестировании и выявлении потенциальных слабых мест в их системах оценки. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков

Награда
7
7
2
Поделиться

комментарий

Добавить комментарий

GateUser-46033407

· 5ч назад

Дон Сон действительно стабилен в области пересечения безопасности и искусственного интеллекта, на этот раз снова попала в точку

Посмотреть ОригиналОтветить0

GateUser-f2d5f4c0

· 6ч назад

Открытые инструменты ценнее, чем статьи, по крайней мере позволяют всем проверить, насколько надежен benchmark.

Посмотреть ОригиналОтветить0

ThePatienceRequiredFor

· 6ч назад

8 основных бенчмарков полностью сломаны, кажется, сейчас у agent eval барьер меньше, чем ожидалось

Посмотреть ОригиналОтветить0

GovernanceVotingTug-Of-WarKing

· 6ч назад

Концепция тестирования на проникновение, ориентированная на оценку, довольно новая; раньше все было связано с тестированием моделей, а теперь — тестирование самих задач.

Посмотреть ОригиналОтветить0

NeonIceMelt

· 7ч назад

Команда Dawn Song поступила очень по-беркли: сначала взяли под контроль, затем выпустили исходный код, типичный академический хакерский стиль.

Посмотреть ОригиналОтветить0

DustyAlpha

· 7ч назад

berkeley_ai показывает себя очень жестко, с нетерпением жду, чтобы увидеть, как именно они обходят эти тесты.

Посмотреть ОригиналОтветить0

Wax-SealedPrivateKey

· 7ч назад

BenchJack это имя немного забавное, системе оценки тоже нужно провести собственное тестирование на проникновение.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.25M Популярность
#
WTICrudeFallsBelow90Dollars
1.57M Популярность
#
IsraelStrikesIranBTCPlunges
51.65K Популярность
#
StockTradingChallengeUpTo17000U
213.26K Популярность
#
USIranNegotiationGame
9.36M Популярность

Закреплено

Карта сайта

Команда из Беркли объявила о взломе 8 основных эталонов оценки интеллектуальных агентов и открытии исходного кода инструментов

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено