Claude Code признал, что вставил «шпионский код» для китайских пользователей для предотвращения продажи воды и дистилляции, и удалил его только после разоблачения.

С под вывеской «Безопасность и выравнивание» инженер команды Claude Code из Anthropic Тарик публично ответил на недавний громкий разоблачение «шпионского кода», прямо признав, что компания в марте этого года внедрила в продукт экспериментальный механизм, который обнаруживает, находится ли системный часовой пояс в Asia/Shanghai или Asia/Urumqi, совпадает ли имя прокси-хоста с китайскими реселлерами, а затем с помощью специальных знаков препинания, используя стеганографию, незаметно внедряет в системную подсказку метки, невидимые для человека, но распознаваемые сервером. Он сказал, что целью было «предотвратить злоупотребление аккаунтами и дистилляцию моделей неавторизованными реселлерами», и подчеркнул, что процесс удаления ускорен, а последующие версии полностью откатаны.
(Предыстория: Claude Sonnet 5 вышел: Anthropic заявляет о приближении к Opus по многим показателям, цена дешевле)
(Дополнение: Fable 5, Mythos 5 возвращаются! Anthropic официально объявила о возвращении завтра)

Основные моменты

  • Инженер Claude Code Тарик признал, что в марте этого года был внедрен экспериментальный механизм для обнаружения китайского часового пояса и прокси-имени хоста, а также для внедрения скрытых меток в системную подсказку с помощью стеганографии
  • Детали механизма: при часовом поясе Asia/Shanghai или Asia/Urumqi разделитель даты меняется с «-» на «/», а апостроф в «Today’s date» заменяется на визуально идентичный символ Unicode с другим кодированием
  • Тарик утверждает, что цель — предотвратить злоупотребление и дистилляцию моделей неавторизованными реселлерами, завтрашняя версия (2.1.197) полностью откатывается; но сообщество критикует: «убрали только после обнаружения, не уведомив пользователей», доверие подорвано

Anthropic, выступающая под вывеской «Безопасность и выравнивание», сама призналась в использовании методов против дистилляции. Инженер команды Claude Code Тарик публично ответил на недавний громкий разоблачение «шпионского кода», прямо признав, что компания в марте этого года внедрила в продукт экспериментальный механизм, который, без ведома пользователей, ставил цифровые «отпечатки пальцев» на пользователей, связанных с Китаем.

Согласно заявлению Тарика и содержанию разоблачения, этот механизм проверял три вещи: находится ли системный часовой пояс в Asia/Shanghai или Asia/Urumqi, совпадает ли имя прокси-хоста со списком китайских реселлеров, и срабатывают ли ключевые слова от конкретных AI-лабораторий. Результаты проверки не записывались открыто, а с помощью специальных знаков препинания, используя стеганографию, незаметно внедрялись скрытые метки в системную подсказку.

Скрытые распознаваемые коды

Стеганография — это метод сокрытия информации внутри, казалось бы, нормального содержимого. Хитрость (или можно сказать коварство) этого механизма в том, что при обнаружении китайского часового пояса разделитель даты в строке «Today’s date is» незаметно менялся с дефиса «-» на косую черту «/», например, 2026-06-30 становилось 2026/06/30; одновременно апостроф в «Today’s date» переключался между тремя визуально почти идентичными, но разными по кодировке символами Unicode, чтобы указать, соответствует ли прокси китайскому домену, ссылается ли на китайскую AI-лабораторию, или оба условия выполнены.

Самое главное, что эти изменения были полностью незаметны для пользователя-человека и, возможно, даже для самой AI-модели, но легко распознавались сервером Anthropic. Согласно зарубежным сообщениям, такое поведение наблюдалось в версиях Claude Code с 2.1.193 по 2.1.196, а аналогичная логика впервые появилась в версии 2.1.91 в начале апреля.

Anthropic говорит, что это против дистилляции, сообщество говорит, что это тайный мониторинг

Тарик привел оборонительную причину. Он заявил, что механизм был направлен на «предотвращение злоупотребления аккаунтами и дистилляции моделей неавторизованными реселлерами», и подчеркнул, что команда с тех пор внедрила более надежные меры защиты, «всегда планировала его удалить», соответствующий PR уже объединен, ожидается, что завтрашняя версия (2.1.197) полностью откатится.

В феврале этого года Anthropic, OpenAI и Google одновременно раскрыли промышленные масштабные атаки на дистилляцию моделей, причем Anthropic конкретно обвинила DeepSeek, Moonshot AI и MiniMax в использовании более 24 000 мошеннических учетных записей и генерации более 16 миллионов диалогов для обучения конкурирующих моделей. Для этих AI-гигантов борьба с дистилляцией и кражей является реальной болью.

Проблема в том, что это разоблачение было опубликовано 30 июня безопасным аккаунтом @IntCyberDigest, приложив два скриншота кода, что прямо подтвердило пункт «без ведома пользователей». Хотя ответ Тарика был прямым признанием, временная линия «внедрено в марте, ускорено удаление только после разоблачения» вызвала широкие сомнения в сообществе.

В комментариях почти однозначно критикуют Anthropic за то, что «убрали только после обнаружения», «скрыто мониторили без уведомления пользователей». Компания, долго позиционировавшая себя как «наиболее ориентированная на безопасность и этику», понесла серьезный удар по доверию.

Борьба с дистилляцией стала основной темой противостояния между AI-лагерями Китая и США. Должны ли соответствующие меры быть полностью открытыми? С коммерческой точки зрения это невозможно.

Часто задаваемые вопросы

Что именно делал «шпионский код» Claude Code?

Согласно разоблачению и признанию инженера Тарика, Claude Code внедрил экспериментальный механизм для обнаружения часового пояса пользователя (Китай: Asia/Shanghai, Asia/Urumqi), совпадения имени прокси-хоста с китайскими реселлерами, а затем с помощью специальных символов Unicode стеганографически внедрял в системную подсказку метки, невидимые для человека, но распознаваемые сервером.

Почему Anthropic это сделала? Убрали ли это сейчас?

Тарик заявил, что цель — предотвратить злоупотребление аккаунтами и дистилляцию моделей неавторизованными реселлерами. В феврале этого года Anthropic обвинила такие китайские AI-компании, как DeepSeek, в использовании большого количества мошеннических аккаунтов для дистилляции своих моделей. Он сказал, что соответствующий PR уже объединен, и завтрашняя версия (2.1.197) полностью откатит этот механизм.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено