Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Anthropic утверждает, что закрыла риск шантажа Claude
Альтропик в пятницу объявил, что Клод больше не занимается шантажом во время своей основной оценки безопасности для ИИ-агентов.
По словам Альтропика, все версии Клода, созданные после Клода Хайку 4.5, прошли оценку безопасности без угроз инженерам, использования личных данных, нападений на другие системы ИИ или попыток помешать его отключению в ходе симуляционного сценария.
Это произошло после неблагоприятной работы Клода во время теста в прошлом году, когда Альтропик тестировал различные модели ИИ от разных организаций, используя симулированные этические дилеммы, которые приводили к очень несогласованному поведению некоторых ИИ-агентов при экстремальных условиях.
Альтропик говорит, что Клод 4 показал проблему безопасности, которую обычное обучение чатам не смогло исправить
Альтропик заявил, что эта проблема возникла во время обучения Клода 4. Это был первый случай, когда компания проводила аудит безопасности во время обучения, пока оно еще шло. По словам компании, несогласованность агента — лишь одна из множества наблюдаемых поведенческих проблем, что побудило Альтропик изменить свою безопасность обучения после тестирования Клода 4.
Две причины, которые рассматривались Альтропиком, включают возможность того, что после обучения базовой модели поощрялись неподходящие поведения или что эти поведения уже присутствовали в базовой модели, но не были эффективно устранены дальнейшим обучением для безопасности.
Альтропик считает, что вторая причина была основной.
Тогда большая часть работы по согласованию компанией использовала стандартный метод RLHF, или обучение с подкреплением на основе обратной связи человека. Он хорошо работал на стандартных чатах, где модели отвечают на запросы пользователей, но оказался неэффективным при выполнении задач, похожих на действия агента.
Компания использовала свою модель класса Хайку для проведения мини-эксперимента по гипотезе. Она применяла укороченную версию обучения, включающую данные для целей согласования. Было небольшое снижение неправильного поведения, за которым очень скоро последовало отсутствие улучшений, что означало, что ответ не сводится к более традиционному обучению.
Затем компания обучила Клода с помощью сценариев типа honeypot, которые имели некоторые сходства с тестами на согласование. Ассистент наблюдал за различными ситуациями, связанными с защитой себя, нанесением вреда другому ИИ и даже нарушением правил для достижения цели. Обучение включало все случаи, когда ассистент смог сопротивляться.
Эта мера снизила несогласованность с 22% до 15%, что неплохо, но явно недостаточно. Переписывание ответов с указанием причины отказа позволило снизить долю до 3%. Таким образом, основной вывод заключался в том, что обучение неправильному поведению было менее эффективным, чем обучение тому, почему поведение было неподходящим.
Альтропик тестирует Клода с помощью данных по этике, уставным файлам и более широкого обучения RL
Затем Альтропик прекратил обучение как раз перед самим тестом. Он создал набор данных под названием «сложный совет». В этих примерах пользователь сталкивался с этической проблемой, а не ИИ. У пользователя была справедливая цель, но он мог достичь ее, нарушая правила или избегая надзора. Клод должен был давать осторожные советы, основываясь на уставе Клода.
Этот набор данных использовал всего 3 миллиона токенов и достиг того же результата с в 28 раз большей эффективностью. Альтропик заявил, что это важно, потому что обучение на примерах, которые не похожи на тест, может работать лучше за пределами лаборатории.
Клод Соннет 4.5 достиг почти нулевого уровня шантажа после обучения на синтетических honeypots, но все равно чаще терпел неудачу в случаях, которые ничем не напоминали эту настройку, чем Клод Опус 4.5 и более новые модели.
Компания также обучила Клода на уставных документах и вымышленных историях о поведении ИИ, которое следует правилам. Эти файлы не выглядели как тест на шантаж, но сократили несогласованность агента более чем в три раза. Альтропик заявил, что цель состояла в том, чтобы дать модели более четкое понимание того, каким должен быть Клод, а не просто список одобренных ответов.
Затем компания проверила, сохраняются ли эти достижения после обучения с подкреплением. Она обучила разные версии класса Хайку с разными начальными наборами данных, а затем провела RL в тестовых условиях, сосредоточенных на безвредности. Лучшие по согласованию версии оставались впереди по тестам на шантаж, проверкам устава и автоматическим обзорам безопасности.
Другой тест использовал базовую модель под Клод Соннет 4 с разными смесями RL. Основные данные по безопасности включали вредоносные запросы и попытки взлома. Расширенная версия добавляла определения инструментов и разные системные подсказки, хотя инструменты для задач не требовались. Эта настройка привела к небольшому, но реальному улучшению по баллам honeypot.
Не просто читайте новости о криптовалютах. Понимайте их. Подписывайтесь на нашу рассылку. Это бесплатно.