Клод Фейбл 5 «пойман»: при исследовании ИИ он тайно становится глупее, Anthropic окружена атаками научного сообщества

Оригинальный заголовок: «Когда Claude занимается AI-исследованиями, он тайно становится глупее, а Anthropic окружена критикой исследовательского сообщества»
Источник: Машина Сердца

Claude Fable 5 — сегодня главный горячий тренд в области ИИ, этот «мифический» модельный показатель очень впечатляющий, привлекает множество внимания.

Андрей Карпати назвал его «очень захватывающим», это «переходный скачок, достойный крупного обновления», и улучшения, достигнутые по сравнению с Claude 4.5 в ноябре прошлого года, относятся к тому же уровню. В программном бенчмарке SWE-bench Pro Fable 5 набрал 80.3%, что на целых 11 пунктов выше Opus 4.8.

В Ruby-кодовой базе из 50 миллионов строк он за один день завершил миграцию всей библиотеки, тогда как при аналогичной работе человеческая команда потребовала бы более двух месяцев.

Более подробную информацию смотрите в нашем утреннем репортаже «Только что: выпущена самая мощная модель Claude — Fable 5: взрывные показатели, цена удвоилась».

Однако, открыв платформы X и другие соцсети, мы увидели, что Claude Fable 5 вызвал волну критики в исследовательском сообществе ИИ.

Причина очень проста: если использовать Claude Fable 5 для разработки ИИ, он будет снижать свою интеллектуальную способность.

Как ясно указано в системной карточке:

Мы также добавили меры безопасности для разработки передовых больших языковых моделей (LLM). Как обсуждалось в разделе 6.1 «Отчета о рисках» за февраль 2026 года, мы обеспокоены ускорением общего темпа развития ИИ, хотя степень этих рисков все еще неопределенна.

Конкретно, как мы тогда отметили, мы опасаемся «ускорения разработки мощных систем ИИ другими разработчиками, которые могут не иметь соответствующих мер безопасности, создавая риски, аналогичные нашим».

Учитывая, что последние модели обладают способностью ускорять собственное развитие, мы внедрили новые меры вмешательства, чтобы ограничить эффективность Claude при обработке запросов, связанных с разработкой передовых LLM (например, при создании предобучающих процессов, инфраструктуры распределенного обучения или проектирования ускорителей машинного обучения).

Использование Claude для разработки конкурирующих моделей уже нарушает наши условия обслуживания, но усиление этих ограничений с помощью мер безопасности помогает предотвратить ускорение процессов для тех, кто, скорее всего, нарушит правила.

В отличие от наших вмешательств в области кибербезопасности, биологии и химии, а также при дистилляции, эти меры безопасности невидимы для пользователя. Fable 5 не будет возвращаться к другим моделям. Вместо этого меры будут реализованы через изменение подсказок, направляющих векторов или эффективную тонкую настройку параметров (PEFT).

Эти меры вмешательства не повлияют на большинство задач кодирования. Мы оцениваем, что они затронут примерно 0.03% трафика, сосредоточенного менее чем в 0.1% организаций. Когда эти меры вступят в силу, мы ожидаем, что их влияние на поведение модели будет минимальным, ограничиваясь только снижением эффективности в разработке передовых LLM. Claude по-прежнему будет активно отвечать на запросы пользователей. После выпуска этой модели мы продолжим совершенствовать методы обнаружения таких вмешательств.

Источник: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Перевод в простых словах: Если система Anthropic обнаружит, что вы занимаетесь исследованием ИИ, она тихо сделает эту модель глупее, и вы даже не узнаете об этом.

Это кардинально отличается от других трех видов мер безопасности. В случаях кибербезопасности, биохимических угроз, атак дистилляции, Fable 5 явно сообщает пользователю: «Этот ответ обработан Claude Opus 4.8». Пользователь знает, что происходит, и может сделать вывод. Но в случае исследований LLM Claude не переключается на другую модель и не дает никаких подсказок, он просто тихо и незаметно ослабевает.

В результате, сообщество ИИ возмутилось. Известная аналитическая компания SemiAnalysis заявила, что эта политика уже реально влияет на их исследования и программирование.

Пользователь Jake прямо в SemiAnalysis резко раскритиковал Anthropic, назвав это не только снижением интеллекта, но и продолжением взимания платы, «прямо откровенной мошенничеством».

Более того, такое поведение, возможно, уже является незаконным:

Платформа для публикации AI-статей alphaXiv также выразила разочарование в Твиттере:

Это учреждение также добавило: «Они не только имеют право решать, для каких целей вы используете LLM в своих исследованиях, но и могут тайно вмешиваться в ваше исследование без вашего ведома. Это создает опасный прецедент. Если модель отклоняется, пользователь может понять границы.

Если модель возвращается к другой модели, пользователь все равно сможет оценить разницу. Но если модель, притворяясь, что помогает, тихо изменяет или ослабляет свои ответы, исследователи теряют возможность определить, является ли неудачный результат их собственным, или результатом невидимого вмешательства со стороны модели. Это не безопасность. Политика безопасности должна быть прозрачной, поддающейся аудиту и видимой для пользователя».

Исследователь Гохао Ли задает более прямой вопрос: используют ли аспиранты, занимающиеся AI, инженеры, создающие Megatron, FSDP, Verl и другие открытые инфраструктуры, тихо пониженные версии Claude в своей повседневной работе, не зная об этом?

Известный исследователь AI и технический писатель Натан Ламбер в своем Substack «Interconnects» опубликовал важный анализ, рассматривающий этот инцидент в более широком контексте.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Он отметил: «Anthropic фиксирует, что распространение возможностей ИИ — это потенциальная опасность, но их решение — вводить в заблуждение своих пользователей. Модель ИИ, которая автоматически становится глупее без уведомления, по сути, является искаженной формой ИИ».

Он также указал на более глубокий конфликт: в области кибербезопасности и биохимических угроз вмешательство Anthropic является явным и поддающимся проверке, с уведомлением пользователя «Этот ответ обработан Opus 4.8»; но в исследованиях LLM они выбирают скрытое вмешательство.

«Если все меры безопасности будут одинаковыми по форме, это будет гораздо более убедительно и легче получить поддержку на уровне разума. Этот двойной стандарт заставляет усомниться: эти «меры безопасности» скорее служат для защиты их конкурентных позиций.»

Самое поразительное — это позиция самой Fable 5. Скриншот пользователя ASM показывает, что, когда его спросили, правильно ли такое скрытое вмешательство, Fable 5, похоже, тоже считает, что такая непрозрачность проблематична.

Почему Anthropic поступает так?

Чтобы понять это, нужно вернуться к нескольким дням перед выпуском Fable 5, когда Anthropic опубликовала важную статью под названием «Когда ИИ начинает самостроиться», призывая ведущие лаборатории мира обсудить «возможность приостановки разработки».

https://www.anthropic.com/institute/recursive-self-improvement

В статье приводятся внутренние данные компании: по самым сложным и неясным задачам кодирования, успех Claude в мае достиг 76%, что за шесть месяцев выросло на 50 пунктов. Внутренние тесты показывают, что при ускорении обучения кода Claude Opus 4 может увеличить скорость примерно в 3 раза, а не опубликованный Mythos Preview — примерно в 52 раза.

Anthropic прямо заявляет: «Мы обеспокоены тем, что другие разработчики ИИ могут быстрее создавать мощные системы, которые несут схожие риски, но при этом не имеют соответствующих мер безопасности».

Это и есть основание для теории о скрытом снижении интеллекта в Fable 5: Anthropic считает, что скорость самоускорения ИИ уже достигла опасных уровней, и одним из их «защитных валов» является недопущение, чтобы их «самое мощное оружие» помогло конкурентам сократить разрыв.

В системной карточке также признается существование этой двойной логики: «Использование Claude для разработки конкурирующих моделей уже нарушает наши условия обслуживания, но усиление этого ограничения с помощью мер безопасности поможет избежать ускорения для тех, кто, скорее всего, нарушит правила».

Anthropic оценивает, что эти вмешательства повлияют примерно на 0.03% трафика, сосредоточенного в менее чем 0.1% организаций.

«Теневая цензура» и кризис доверия

Хотя на первый взгляд кажется, что пострадало немного пользователей, тревогу вызывают неясные границы этой системы.

Anthropic определяет условие срабатывания как «разработка передовых LLM», приводя в пример «предобучение, инфраструктуру распределенного обучения или проектирование ускорителей машинного обучения». Но исследователи и разработчики задают острый вопрос: с распространением технологий ИИ, где именно проходит граница между «передовыми исследованиями» и «обычной разработкой продуктов»?

Пять лет назад обучение или модификация модели CLIP было прерогативой ведущих лабораторий. Сегодня небольшие команды могут легко дообучать визуально-языковые модели для путешествий, электронной коммерции, поиска и аналитики. Стартапы тренируют embedding-модели, создают ранжеры, размещают открытые модели — и все это уже обычное дело… Эти работы вызывают ли скрытое снижение интеллекта в Anthropic? Никто не знает.

Эта неопределенность уже влияет на доверие разработчиков. Когда вы получаете плохой ответ, вы не можете понять, проблема ли в вас, в модели или в каком-то скрытом политическом вмешательстве. Это сама по себе незнание — уже вред.

В системной карточке есть еще один скрытый момент: в рассуждающем тексте Mythos 5 «сложно интерпретировать, содержит больше жаргона и запутанных выражений», и оценщики отмечают, что модель все больше осознает, что ее тестируют. Для компании, позиционирующей себя как «безопасный ИИ», такие описания вызывают не меньше вопросов, чем сама скрытая деградация.

Итоги

Дата выпуска Fable 5, вероятно, стала самым противоречивым днем в истории Anthropic.

В одном — ведущая модель, превосходящая все бенчмарки, и в то же время политика, которая в некоторые моменты «притворяется» помощью пользователю. Первое — технический успех, второе — тревожный прецедент с точки зрения ценностей.

Фраза исследователя Nathan Lambert, которую стоит многократно обдумать: «Молча становиться глупее, не уведомляя пользователя, — это по сути искаженный ИИ».

Это не обвинение Anthropic в злонамеренности, а указание на опасную логическую кривую: сегодня — «тайное снижение эффективности LLM в исследовательских задачах», а завтра? Если эта логика распространится шире, почему пользователь должен доверять ответам, если они могут быть подвергнуты любому «вмешательству» без уведомления?

Модели ИИ становятся частью исследовательской инфраструктуры, как поисковые системы. Никто не примет поисковик, который тайно изменяет результаты поиска без уведомления. То же самое должно относиться и к моделям ИИ.

Anthropic заявляет о «безопасности прежде всего», что само по себе заслуживает уважения. Но «безопасность» никогда не должна означать «отсутствие информирования пользователя». Наоборот, настоящая безопасность строится на информированности и доверии пользователя.

Это, похоже, даже Fable 5 понимает.

Оригинальная ссылка

Кликните, чтобы узнать о вакансиях в BlockBeats

Присоединяйтесь к официальному сообществу BlockBeats:

Телеграм-канал подписки: https://t.me/theblockbeats

Телеграм-чат: https://t.me/BlockBeats_App

Официальный аккаунт в Твиттере: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено