По словам Альтропика, все версии Клода, созданные после Клода Хайку 4.5, прошли оценку безопасности без угроз инженерам, использования личных данных, нападений на другие системы ИИ или попыток помешать его отключению в ходе симуляционного сценария.

Это произошло после неблагоприятной работы Клода во время теста в прошлом году, когда Альтропик тестировал различные модели ИИ от разных организаций, используя симулированные этические дилеммы, которые приводили к очень несогласованному поведению некоторых ИИ-агентов при экстремальных условиях.

Альтропик говорит, что Клод 4 показал проблему безопасности, которую обычное обучение чатам не смогло исправить

Альтропик заявил, что эта проблема возникла во время обучения Клода 4. Это был первый случай, когда компания проводила аудит безопасности во время обучения, пока оно еще шло. По словам компании, несогласованность агента — лишь одна из множества наблюдаемых поведенческих проблем, что побудило Альтропик изменить свою безопасность обучения после тестирования Клода 4.

Две причины, которые рассматривались Альтропиком, включают возможность того, что после обучения базовой модели поощрялись неподходящие поведения или что эти поведения уже присутствовали в базовой модели, но не были эффективно устранены дальнейшим обучением для безопасности.

Альтропик считает, что вторая причина была основной.

Тогда большая часть работы по согласованию компанией использовала стандартный метод RLHF, или обучение с подкреплением на основе обратной связи человека. Он хорошо работал на стандартных чатах, где модели отвечают на запросы пользователей, но оказался неэффективным при выполнении задач, похожих на действия агента.

Компания использовала свою модель класса Хайку для проведения мини-эксперимента по гипотезе. Она применяла укороченную версию обучения, включающую данные для целей согласования. Было небольшое снижение неправильного поведения, за которым очень скоро последовало отсутствие улучшений, что означало, что ответ не сводится к более традиционному обучению.

Затем компания обучила Клода с помощью сценариев типа honeypot, которые имели некоторые сходства с тестами на согласование. Ассистент наблюдал за различными ситуациями, связанными с защитой себя, нанесением вреда другому ИИ и даже нарушением правил для достижения цели. Обучение включало все случаи, когда ассистент смог сопротивляться.

Эта мера снизила несогласованность с 22% до 15%, что неплохо, но явно недостаточно. Переписывание ответов с указанием причины отказа позволило снизить долю до 3%. Таким образом, основной вывод заключался в том, что обучение неправильному поведению было менее эффективным, чем обучение тому, почему поведение было неподходящим.

Альтропик тестирует Клода с помощью данных по этике, уставным файлам и более широкого обучения RL

Затем Альтропик прекратил обучение как раз перед самим тестом. Он создал набор данных под названием «сложный совет». В этих примерах пользователь сталкивался с этической проблемой, а не ИИ. У пользователя была справедливая цель, но он мог достичь ее, нарушая правила или избегая надзора. Клод должен был давать осторожные советы, основываясь на уставе Клода.

Этот набор данных использовал всего 3 миллиона токенов и достиг того же результата с в 28 раз большей эффективностью. Альтропик заявил, что это важно, потому что обучение на примерах, которые не похожи на тест, может работать лучше за пределами лаборатории.

Клод Соннет 4.5 достиг почти нулевого уровня шантажа после обучения на синтетических honeypots, но все равно чаще терпел неудачу в случаях, которые ничем не напоминали эту настройку, чем Клод Опус 4.5 и более новые модели.

Компания также обучила Клода на уставных документах и вымышленных историях о поведении ИИ, которое следует правилам. Эти файлы не выглядели как тест на шантаж, но сократили несогласованность агента более чем в три раза. Альтропик заявил, что цель состояла в том, чтобы дать модели более четкое понимание того, каким должен быть Клод, а не просто список одобренных ответов.

Затем компания проверила, сохраняются ли эти достижения после обучения с подкреплением. Она обучила разные версии класса Хайку с разными начальными наборами данных, а затем провела RL в тестовых условиях, сосредоточенных на безвредности. Лучшие по согласованию версии оставались впереди по тестам на шантаж, проверкам устава и автоматическим обзорам безопасности.

Другой тест использовал базовую модель под Клод Соннет 4 с разными смесями RL. Основные данные по безопасности включали вредоносные запросы и попытки взлома. Расширенная версия добавляла определения инструментов и разные системные подсказки, хотя инструменты для задач не требовались. Эта настройка привела к небольшому, но реальному улучшению по баллам honeypot.

Не просто читайте новости о криптовалютах. Понимайте их. Подписывайтесь на нашу рассылку. Это бесплатно.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
PreIPOsSeason2OpenAISubscription
1,38M Популярность
#
GateDEXIntegratesWithRobinhoodChain
757,79K Популярность
#
IsraelStrikesIranBTCPlunges
72,4K Популярность
#
TSMCQ2NetProfitSurges77%
264,28K Популярность
#
SummerCreationCamp
1,04M Популярность

Закреплено

Карта сайта

Anthropic утверждает, что закрыла риск шантажа Claude

Популярные темы

PreIPOsSeason2OpenAISubscription

GateDEXIntegratesWithRobinhoodChain

IsraelStrikesIranBTCPlunges

TSMCQ2NetProfitSurges77%

SummerCreationCamp

Закреплено