Обвинения со стороны сообщества в тайном саботаже, Anthropic извинилась и отменила скрытое ограничение по понижению уровня Claude

По данным мониторинга Beating, Anthropic объявила о корректировке стратегии безопасности при разработке нового модели Claude Fable 5, отменив меры по молчаливому снижению производительности. Механизм молчаливого понижения был обвинен сообществом в «тайном разрушении», что вызвало сильную реакцию в сообществе исследований искусственного интеллекта.

Согласно условиям обслуживания Anthropic, пользователи не могут использовать Claude для обучения конкурирующих моделей. Anthropic планирует напрямую снижать производительность Claude Fable 5 для аккаунтов, подозреваемых в обучении конкурирующих моделей, без уведомления пользователей. Исследователи искусственного интеллекта предупреждают, что молчательное снижение производительности мешает работе сторонних организаций по оценке безопасности и препятствует сотрудничеству в области безопасности ИИ в открытом сообществе.

В ответ на критику сообщества Anthropic опубликовала заявление с публичным извинением, признав ошибку в балансировке стратегии безопасности и решившуюся в пользу публичных уведомлений. Если система обнаружит попытки пользователя создать высокоэффективный ИИ, она явно отклонит запрос или перенаправит пользователя к модели с низкой производительностью. Anthropic предупреждает, что поскольку публичные механизмы защиты легче обходить, в будущем расширит диапазон фильтрации безопасности, что может привести к ошибочному блокированию некоторых безвредных запросов.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено