Хтось створив відкритий «Теоретичний міфос», щоб зворотно інженерити найнебезпечнішого ШІ від Anthropic

Коротко

  • OpenMythos — це з нуля реконструкція архітектури Claude Mythos, побудована лише на основі публічних дослідницьких статей та обґрунтованих здогадок.
  • Claude Mythos — це найпотужніша модель Anthropic, яка зберігається в Project Glasswing, оскільки вона автономно виявила 271 уразливість Firefox і 32-крокові мережеві атаки.
  • Репозиторій — це теоретичне каркасне рішення — код без навчених ваг. Він відображає окрему ініціативу Vidoc Security, яка відтворила виявлення уразливостей Mythos за допомогою стандартних моделей.

Якщо Anthropic не покаже вам, що всередині його найнебезпечнішого ШІ, хтось на GitHub здогадається. Розробник на ім’я Kye Gomez опублікував OpenMythos, відкриту реконструкцію того, як він уявляє собі вигляд Claude Mythos під капотом. Репозиторій за кілька тижнів після релізу зібрав понад 10 000 зірок на GitHub і містить вичерпний файл “readme” з рівняннями, цитатами та ввічливим застереженням, що він не має нічого спільного з Anthropic. Це спекуляція. Але структурована спекуляція, у коді. Ось короткий огляд того, що таке Mythos: Mythos з’явився у публічному просторі наприкінці березня, коли Anthropic випадково опублікував проєктні матеріали, що описують його як найздатнішу модель компанії на сьогодні — вищу за Opus. Наступний, Mythos Preview, виявився надзвичайно хорошим у кібербезпеці.

 За словами Anthropic, Mythos виявив 271 уразливість у Firefox під час тестування Mozilla. Це стала першою моделлю ШІ, яка завершила симуляцію 32-крокової атаки на корпоративну мережу. Anthropic закрив її у Project Glasswing, vetted coalition з близько 40 партнерів, включаючи Microsoft, Apple, Amazon та NSA. Публіка не має доступу до неї. Тому Gomez намагався зрозуміти, як вона працює. Головна гіпотеза OpenMythos полягає в тому, що Mythos — це рекурентний глибокий трансформер — також званий циклічним трансформером. Стандартні моделі складаються з сотень унікальних шарів. Циклічні моделі беруть менший стек і запускають його через себе багато разів за один прохід.

Інакше кажучи, ті самі ваги проходять через більше ітерацій. Глибше мислення у безперервному латентному просторі, перш ніж будь-який токен буде випущений. Репозиторій стверджує, що це пояснює дві найдивніші характеристики Mythos: вона розв’язує нові проблеми, які жодна інша модель не може розв’язати, але її необроблена пам’ять нерівномірна. Це архітектурний відбиток циклічності — композиція замість збереження. OpenMythos цитує Parcae, статтю від квітня 2026 року з Університету Каліфорнії Сан-Дієго та Together AI, яка вирішила довготривалу проблему нестабільності у циклічних моделях — модель Parcae з 770 мільйонами параметрів відповідає за якістю 1,3 мільярда фіксованих глибинних трансформерів, з передбачуваними законами масштабування залежно від кількості циклів. У репозиторії також використовується Multi-Latent Attention від DeepSeek для компресії пам’яті та схема Мікс-експертів для обробки широкого спектру доменів. Чого у нього немає — ваг, тому це, по суті, техніка без виконавця. OpenMythos — теоретичний. Код визначає варіанти моделі від 1 мільярда до 1 трильйона параметрів, але їх потрібно тренувати самостійно — у файлі readme вказано скрипт тренування для 3 мільярдів параметрів на FineWeb-Edu та ціль у 30 мільярдів токенів, що вимагає сотень тисяч доларів на H100. Ніхто ще не зробив цього. Чому це важливо? Тому що це вже другий випадок за місяць, коли хтось торкається стіни навколо Mythos. Перший — дослідження Vidoc Security, яке відтворило кілька найнебезпечніших вразливостей Mythos за допомогою GPT-5.4 і Claude Opus 4.6 у відкритому агенті. Без доступу до Glasswing і за менше ніж 30 доларів за скан. Інший підхід, той самий висновок: Огорожа навколо Mythos може бути тоншою, ніж рекламні заяви. OpenMythos і реплікація Vidoc виконують різні завдання. Vidoc відтворила вихідні дані Mythos — самі вразливості — за допомогою існуючих моделей. OpenMythos намагається відтворити архітектуру — справжню машину, яка генерує ці вихідні дані. Один каже, що вам не потрібно Mythos, щоб знайти баги, які він виявив. Інший — що з часом ви зможете побудувати щось подібне до Mythos самі.

Anthropic майже напевно не публічно не ділиться здогадками Gomez щодо архітектури, і кілька рішень у OpenMythos є явно обережними — у файлі readme зроблено так, щоб користувачі розуміли, що це лише підхід. Там постійно використовуються слова “ймовірно,” “підозрюється,” і “майже напевно.” Можливо, справжній Mythos зовсім не циклічний трансформер. Або він може бути з деталями, які Gomez ще не розкрив у зворотному інжинірингу. Що демонструє OpenMythos — це те, що досліджувальна література вже містить більшість компонентів. Циклічні трансформери, Мікс-експертів, Multi-Latent Attention, Adaptive Computation Time, фіксоване рішення Parcae — нічого з цього не є власністю. Репозиторій — це, більше ніж будь-що, інвентар того, що публічно відомо про побудову моделі класу Mythos. Ліцензований за MIT, він уже має 2700 форків. Скрипт тренування чекає на когось із GPU-кластером і дипломною роботою, щоб довести.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити