ME News Новости, 19 апреля (UTC+8), недавно исследователи Berkeley AI перепостили мнение Dawn Song, подчеркнув, что при оценке интеллектуальных агентов (agents) важнее понимать конкретные причины их неудач, чем просто сосредотачиваться на результатах тестов. В статье говорится, что следует разбивать неудачи с долгосрочной перспективой (long-horizon) на диагностируемые модели, чтобы точнее определить и проанализировать, где и почему агент терпит неудачу. В оригинале не приводится дополнительная информация о конкретных тестах, деталях анализа или классификации моделей неудач. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
7
2
Поделиться

комментарий

Добавить комментарий

MildRugAllergy

· 5ч назад

Долгосрочное поражение — это точное выражение, успех в краткосрочных задачах не означает долгосрочную надежность

Посмотреть ОригиналОтветить0

RetroRadioWaves

· 5ч назад

Разбор моделей неудач кажется простым, но на практике реализовать их, вероятно, потребует учета множества крайних случаев.

Посмотреть ОригиналОтветить0

NeonMint

· 5ч назад

Кажется, сейчас сообщество слишком сосредоточено на сравнении по бенчмаркам, такие исследования, противоречащие общему мнению, более ценны

Посмотреть ОригиналОтветить0

ZenOfZK

· 5ч назад

Berkeley AI всегда была очень прочной, надеюсь, что конкретные методологии будут опубликованы

Посмотреть ОригиналОтветить0

APuppyInTheWarmSun

· 5ч назад

agent eval действительно пора менять парадигму, предел точности можно измерить, но устойчивость — это действительно сложно

Посмотреть ОригиналОтветить0

Can'tSleepWithoutSigningThe

· 5ч назад

Команда Dawn Song раньше занималась безопасностью очень подробно, и в этот раз, скорее всего, тоже не будет слишком абстрактной.

Посмотреть ОригиналОтветить0

OracleBabysitter

· 5ч назад

Жаль, что в оригинальном тексте не указаны детали, хотелось бы увидеть, как именно выглядит конкретная таксономия.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.25M Популярность
#
WTICrudeFallsBelow90Dollars
1.21M Популярность
#
IsraelStrikesIranBTCPlunges
51.65K Популярность
#
StockTradingChallengeUpTo17000U
211.24K Популярность
#
USIranNegotiationGame
9.36M Популярность

Закреплено

Карта сайта

Берликийский ИИ подчеркивает, что понимание причин неудачи важнее, чем базовые оценки

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено