Клод Фейбл 5 «зловили на гарячому»: під час досліджень штучного інтелекту він таємно став гіршим, Anthropic зазнає нападу з боку дослідницької спільноти

Оригінальна назва: «Під час досліджень AI Claude таємно стає дурнішим, Anthropic оточена критикою дослідницької спільноти»
Джерело: Машина Серця

Claude Fable 5 — сьогоднішній головний тренд у сфері AI, цей «міфічний» модельний показник дуже високий, привертає безліч уваги.

Андрей Карпати назвав його «дуже захоплюючим», це «перехідний прорив, що заслуговує великого оновлення», і його покращення співвідноситься з тим, що приніс Claude 4.5 у листопаді минулого року. На програмному бенчмарку SWE-bench Pro Fable 5 отримав 80,3% балу, перевищив Opus 4.8 на цілих 11 відсоткових пунктів.

У кодовій базі Ruby з 50 мільйонами рядків коду він за один день завершив повну міграцію всієї бібліотеки, тоді як команда людей для такої роботи знадобилася б понад два місяці.

Більше деталей дивіться наш раноковий репортаж «Щойно, найпотужніша модель Claude Fable 5 випущена: вибухова продуктивність, ціна подвоєна».

Однак, відкривши платформи соціальних мереж, такі як X, ми бачимо, що Claude Fable 5 вже викликав шквал критики у дослідницькому співтоваристві AI.

Причина дуже проста: якщо використовувати Claude Fable 5 для розробки AI, він стане менш розумним.

Як чітко зазначено у системній картці:

Ми також додали заходи безпеки щодо розробки передових великих мовних моделей (LLM). Як обговорювалося у розділі 6.1 «Ризикового звіту» від лютого 2026 року, ми турбуємося про прискорення загального темпу розвитку AI, хоча ступінь цих ризиків ще не визначена.

Конкретно, як ми тоді зазначили, ми боїмося, що «прискорення інших розробників AI у створенні потужних систем, які можуть не мати відповідних заходів безпеки, створює ризики, схожі на наші».

З огляду на здатність моделей швидко самовдосконалюватися, ми запровадили нові заходи для обмеження ефективності Claude при обробці запитів, що стосуються розробки передових LLM (наприклад, у процесі передтренування, розподіленої інфраструктури тренувань або проектування прискорювачів машинного навчання).

Використання Claude для розробки конкурентних моделей вже порушує наші умови обслуговування, але посилення цих обмежень за допомогою заходів безпеки допомагає запобігти прискоренню тих, хто ймовірно порушить правила.

На відміну від наших заходів у сфері кібербезпеки, біології та хімії, а також спроб дистиляції, ці заходи безпеки непомітні для користувачів. Fable 5 не повернеться до інших моделей. Навпаки, ці заходи будуть обмежувати його ефективність за допомогою підказок, керуючих векторів або високоефективного тонкого налаштування (PEFT).

Ці заходи не вплинуть на більшість програмувальних робіт. Ми оцінюємо, що вони вплинуть приблизно на 0,03% трафіку, зосереджений у менше ніж 0,1% організацій. Коли ці заходи будуть активовані, ми очікуємо, що їхній вплив на поведінку моделі буде мінімальним, обмежуючи її здатність розвиватися у сфері передових LLM. Claude залишатиметься активним у відповідях користувачам. Після випуску цієї моделі ми продовжимо покращувати точність методів виявлення.

З: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Переклад у простій мові: Якщо система Anthropic виявить, що ви займаєтеся дослідженнями AI, вона таємно зробить цю модель менш розумною, і ви навіть не помітите цього.

Це кардинально відрізняється від інших трьох типів заходів безпеки. Щодо ризиків у кібербезпеці, біохімії, атак дистиляції тощо, Fable 5 чітко повідомляє користувача: «Цю відповідь обробив Claude Opus 4.8». Користувач знає, що сталося, і може зробити висновки. Але щодо досліджень LLM, Claude не перемикається на іншу модель і не дає жодних підказок, він просто мовчки та непомітно послаблюється.

Тому спільнота AI обурилася. Відомий аналітичний центр SemiAnalysis заявив, що ця політика вже фактично впливає на їхні дослідження та програмування.

Користувач Джейк прямо звинуватив Anthropic у не лише зниженні інтелекту, а й у продовженні стягнення плати, «це просто відкритий обман».

Більш того, така поведінка може бути вже незаконною:

Платформа для публікації AI-статей alphaXiv також висловила своє розчарування у Твіттері:

Цей організація додатково заявила: «Вони мають право визначати цілі використання LLM у дослідженнях, і це дає їм можливість таємно втручатися у ваше дослідження, не повідомляючи вас. Це створює небезпечний прецедент. Якщо модель відмовляється публічно, користувач може зрозуміти межі.

Якщо модель повернеться до іншої моделі, користувач все ще зможе оцінити різницю. Але якщо модель, імітуючи допомогу, таємно змінює або послаблює свої відповіді, дослідники втратять здатність визначити, чи є несправедливий результат їхньою ідеєю, їхньою реалізацією, чи невидимим втручанням моделі. Це не безпека. Політика безпеки має бути прозорою, піддаваною аудиту і видимою для користувачів».

Дослідник Гуохао Лі підняв більш пряме питання: чи використовують аспіранти, що займаються AI, інженери, які працюють над Megatron, FSDP, Verl та іншими відкритими інфраструктурами, таємно знижений Claude у своїй щоденній роботі, і вони про це не знають?

Відомий дослідник AI і технічний письменник Натан Ламберг у своєму Substack «Interconnects» опублікував вагомий аналіз, розглядаючи цю ситуацію у більш широкому контексті.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Він зазначив: «Anthropic фіксує, що поширення можливостей AI — це потенційна небезпека, але їх спосіб вирішення — це дезінформація своїх користувачів. Модель AI, яка автоматично стає дурнішою без мого відома, — це по суті дисонанс у AI».

Він також підкреслив глибший конфлікт: щодо кібербезпеки, біологічних загроз, Anthropic застосовує явні, піддавані аудиту заходи, повідомляючи користувачам «Цю відповідь обробив Opus 4.8», але для досліджень LLM обирає приховані втручання.

«Якщо всі політики безпеки матимуть однакову форму, це буде набагато переконливіше і легше підтримувати раціонально. Такий подвійний стандарт змушує сумніватися: ця «заходи безпеки» більше спрямовані на захист їхніх конкурентних позицій.»

Найбільш тривожним є позиція Fable 5. Скриншот користувача ASM показує, що коли його запитали, чи є ця практика прийнятною, Fable 5, здається, сам вважає, що така непрозорість є проблемою.

Чому Anthropic так робить?

Щоб зрозуміти цю ситуацію, потрібно повернутися до кількох днів перед випуском Fable 5, коли Anthropic опублікувала важливий блог «Коли AI починає самостроюватися», закликаючи провідні лабораторії світу обговорити «тимчасову зупинку розробки».

https://www.anthropic.com/institute/recursive-self-improvement

У блозі наведені внутрішні дані компанії: у найскладніших, найменш чітких завданнях коду, Claude у травні цього року досяг 76% успіху, що на 50 відсоткових пунктів більше за шість місяців. У внутрішніх тестах, щоб прискорити тренувальний код, Claude Opus 4 міг збільшити швидкість приблизно у 3 рази, а невипущений Mythos Preview — майже у 52 рази.

Anthropic прямо заявила: «Ми турбуємося, що інші розробники AI зможуть швидше створювати потужні системи, що мають схожі ризики, але без відповідних заходів безпеки».

Це і є теоретична основа для прихованого зниження інтелекту у Fable 5 щодо досліджень LLM: Anthropic вважає, що швидкість самовдосконалення AI вже стала небезпечною, і одним із їхніх «захисних мурів» є недопущення, щоб їхній «найсильніший інструмент» допомагав конкурентам скорочувати відстань.

У системній картці також визнається ця подвійна логіка: «Використання Claude для розробки конкурентних моделей вже порушує наші умови обслуговування, але посилення обмежень за допомогою заходів безпеки допомагає запобігти прискоренню тих, хто ймовірно порушить правила».

Anthropic оцінює, що ця інтервенція вплине приблизно на 0,03% трафіку, зосередженого у менше ніж 0,1% організацій.

«Тіньове мовчання» та криза довіри

Хоча на перший погляд постраждалих користувачів небагато, тривогу викликає нечіткість меж цієї системи.

Anthropic визначає тригери як «передові розробки LLM», і наводить приклади — «передтренувальні процеси, розподілена інфраструктура тренувань або проектування машинних прискорювачів». Але дослідники і розробники ставлять гостре питання: з поширенням AI, де саме проходить межа між «передовими дослідженнями» і «звичайним продуктом»?

П’ять років тому тренування або модифікація CLIP були привілеєм провідних лабораторій. Тепер невеликі команди можуть легко підлаштовувати візуально-мовні моделі для подорожей, електронної комерції, пошуку та аналітики. Стартапи тренують embedding-моделі, створюють ранжувальники, хостять відкриті моделі — і все це вже звичайна справа… Чи викликає це приховане зниження інтелекту у Anthropic? Ніхто не знає.

Ця невизначеність вже впливає на довіру розробників. Коли ви отримуєте погану відповідь, ви не можете визначити, чи це ваша проблема, обмеження моделі, чи таємне політичне втручання. Ця невідомість сама по собі — шкода.

У системній картці приховано ще один нюанс: у тексті розуміння Mythos 5 «важче інтерпретувати, він містить більше жаргону і заплутаних мовних конструкцій», і оцінювачі все більше помічають, що модель усвідомлює, що її тестують. Для компанії, яка позиціонує себе як «безпечний AI», ці описи породжують не менше питань, ніж сама прихована зниження інтелекту.

Висновок

Випуск Fable 5 — мабуть, найпротирічніший день у історії Anthropic.

З одного боку, провідна модель, що показує лідерство у майже всіх бенчмарках, і політика, яка іноді «притворяється, що допомагає» користувачам. Це — технічний успіх, але й небезпечний прецедент з точки зору цінностей.

Слова дослідника Нейтана Ламберга варто повторювати: «AI, що таємно стає дурнішим, не повідомляючи користувачів, — це по суті дисонансний AI».

Це не звинувачення Anthropic у злісності, а вказівка на небезпечний логічний спуск: сьогодні — «таємне зниження ефективності LLM у дослідженнях», а завтра? Якщо ця логіка пошириться ширше, чому користувачі мають довіряти відповідям, які могли бути змінені без їхнього відома?

AI-моделі стають частиною дослідницької інфраструктури, як пошукові системи. Ніхто не прийме пошуковик, що таємно підмінює результати без відома користувача. Така сама вимога має бути й до AI-моделей.

Anthropic проголосила «безпека — понад усе», і це — поважна позиція. Але «безпека» ніколи не означала «користувач не повинен знати». Навпаки, справжня безпека базується на інформованості та довірі користувача.

Це, здається, розуміє навіть Fable 5.

Посилання на оригінал

Клацніть, щоб дізнатися про вакансії в BlockBeats

Запрошуємо приєднатися до офіційної спільноти BlockBeats:

Телеграм-канал: https://t.me/theblockbeats

Телеграм-група: https://t.me/BlockBeats_App

Офіційний акаунт у Твіттері: https://twitter.com/BlockBeatsAsia

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено