Обвинения со стороны сообщества в тайном саботаже, Anthropic извинилась и отменила скрытое ограничение по понижению уровня Claude

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, Anthropic объявила о корректировке стратегии безопасности при разработке нового модели Claude Fable 5, отменив ограничение на молчаливое понижение производительности. Механизм молчаливого понижения был обвинен сообществом в «тайном разрушении», что вызвало сильную реакцию в сообществе исследований искусственного интеллекта. Согласно условиям обслуживания Anthropic, пользователи не могут использовать Claude для обучения конкурирующих моделей. Anthropic планирует напрямую снижать производительность Claude Fable 5 без уведомления пользователя для аккаунтов, подозреваемых в обучении конкурирующих моделей. Исследователи искусственного интеллекта предупреждают, что молчалическое снижение производительности мешает тестированию сторонних организаций по оценке безопасности и препятствует сотрудничеству в области безопасности ИИ в открытом сообществе. В ответ на критику сообщества Anthropic опубликовала заявление с публичным извинением, признав ошибку в балансировке стратегии безопасности и объявила о переходе к открытому уведомлению о мерах защиты. Если система обнаружит попытки пользователя создать высокоэффективный ИИ, запрос будет явно отклонен или пользователь будет перенаправлен к модели с низкой производительностью. Anthropic предупреждает, что поскольку открытые механизмы защиты легче обходить целенаправленными методами, в будущем диапазон фильтрации безопасности будет расширен, что может привести к ошибочному блокированию некоторых безвредных запросов. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено