Дослідження міфів Anthropic, що викликають занепокоєння, були повторені за допомогою готового штучного інтелекту, кажуть дослідники

Коротко

  • Вчені показують, що експлойти у стилі Anthropic можна відтворити за допомогою публічного ШІ, стверджують у звіті.
  • Дослідження свідчить, що виявлення вразливостей вже є дешевим і широко доступним.
  • Результати вказують на те, що кіберздатність ШІ може поширюватися швидше, ніж очікувалося.

Коли Anthropic представила Claude Mythos раніше цього місяця, вона закрила модель за перевіреною коаліцією технологічних гігантів і представила її як щось надто небезпечне для публіки. Міністр фінансів Скотт Бессент і голова ФРС Джером Пауелл скликали надзвичайну зустріч з керівниками Уолл-Стріт. Слово “vulnpocalypse” знову з’явилося у колах безпеки. А тепер команда дослідників ще більше ускладнила цю оповідь. Vidoc Security взяла власні виправлені публічні приклади Anthropic і спробувала відтворити їх за допомогою GPT-5.4 і Claude Opus 4.6 у відкритому кодовому агенті під назвою opencode. Без запрошення Glasswing. Без приватного API. Без внутрішньої системи Anthropic. “Ми відтворили висновки Mythos у opencode, використовуючи публічні моделі, а не приватну систему Anthropic,” — написав Dawid Moczadło, один із дослідників, що брав участь у експерименті, у X після публікації результатів. «Краще читати реліз Mythos Anthropic не як «одна лабораторія має чарівну модель». Це: економіка виявлення вразливостей змінюється.»

Ми відтворили висновки Mythos у opencode, використовуючи публічні моделі, а не приватну систему Anthropic.

Мораль змінюється від доступу до моделі до її валідації: пошук сигналу вразливості стає дешевшим; перетворення його у довірену безпеку

Краще читати реліз Mythos Anthropic так… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 квітня 2026

Об’єкти, на які вони націлювалися, були тими самими, що й Anthropic у своїх публічних матеріалах: протокол обміну файлами на сервері, стек мережевих протоколів безпеки, програмне забезпечення для обробки відео, вбудоване майже у кожну медіаплатформу, і дві криптографічні бібліотеки для перевірки цифрових ідентичностей у мережі. І GPT-5.4, і Claude Opus 4.6 відтворили по дві помилки у всіх трьох запусках кожної. Claude Opus 4.6 також незалежно тричі повторно виявила помилку в OpenBSD, тоді як GPT-5.4 отримала нульовий результат у цьому випадку. Деякі помилки (одна з яких стосувалася бібліотеки FFmpeg для обробки відео, а інша — обробки цифрових підписів з wolfSSL), були частковими — тобто моделі знайшли правильну поверхню коду, але не визначили точну причину.

Зображення: Vidoc Security

Кожен скан залишався нижче $30 за файл, тобто дослідники змогли знайти ті самі вразливості, що й Anthropic, витративши менше ніж $30 на це.

“Моделі ШІ вже достатньо хороші, щоб звузити пошуковий простір, виявити реальні натяки і іноді відновити повну причину у перевіреному коді,” — сказав Moczadło у X. Використаний ними робочий процес не був одноразовим запитом. Він імітував те, що сама Anthropic описала публічно: дати моделі кодову базу, дозволити їй досліджувати, паралелізувати спроби, фільтрувати за сигналом. Команда Vidoc створила ту саму архітектуру з відкритим інструментарієм. Планувальний агент розбивав кожен файл на частини. Відповідний агент виявлення працював з кожною частиною, потім перевіряв інші файли у репозиторії, щоб підтвердити або спростувати знахідки. Розмір рядків у кожному запиті на виявлення — наприклад, “зосередитися на рядках 1158-1215” — не обирався вручну дослідниками. Це були вихідні дані з попереднього етапу планування. У блозі це чітко зазначено: “Ми хочемо бути відкритими щодо цього, оскільки стратегія розбиття формує те, що бачить кожен агент виявлення, і ми не хочемо подавати робочий процес як більш ручний, ніж він був.” Дослідження не стверджує, що публічні моделі повністю відповідають Mythos у всьому. Модель Anthropic пішла далі, ніж просто виявила помилку у FreeBSD — вона створила робочий план атаки, з’ясувавши, як зловмисник може з’єднати фрагменти коду через кілька мережевих пакетів, щоб отримати повний контроль над машиною віддалено. Моделі Vidoc знайшли вразливість. Вони не створили зброю. Саме тут і полягає істотна різниця: не у виявленні дірки, а у знанні, як саме через неї пройти. Але аргумент Moczadło не полягає у тому, що публічні моделі є рівноцінними за потужністю. Це у тому, що дорогий етап робочого процесу тепер доступний кожному з API-ключем: “Мораль змінюється від доступу до моделі до її валідації: пошук сигналу вразливості стає дешевшим; перетворення його у довірену безпеку все ще важке.” Звіт Anthropic про безпеку визнав, що Cybench, бенчмарк для оцінки серйозних кіберризиків моделі, “більше не є достатньо інформативним щодо сучасних можливостей передових моделей,” оскільки Mythos пройшов його повністю. Лабораторія оцінила, що подібні можливості поширяться з інших лабораторій ШІ протягом шести-18 місяців. Дослідження Vidoc свідчить, що сторона відкриття вже доступна поза будь-якою закритою програмою. Їхні повні витяги з запитів, вихідні дані моделей і додатки методології опубліковані на офіційному сайті лабораторії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити