誰かがオープンソースの「理論神話」を構築し、Anthropicの最も危険なAIを逆解析した

要約

  • OpenMythosは、公開された研究論文と推測だけを基にした、クロード・ミュトスアーキテクチャのゼロからの再構築です。
  • クロード・ミュトスは、Anthropicの最も強力なモデルであり、自律的に271のFirefoxの脆弱性と32段階のネットワーク攻撃を発見したため、Project Glasswingに封印されています。
  • このリポジトリは理論的な枠組みであり、訓練済みの重みを持たないコードです。これは、Vidoc Securityによる別の努力と並行して、既存のモデルを用いてミュトスの脆弱性発見を再現したものに似ています。

もしAnthropicが最も危険なAIの内部を見せたくなければ、誰かがGitHubで推測します。 Kye Gomezという開発者が、彼の考えるクロード・ミュトスの内部構造をオープンソースで再構築したOpenMythosを公開しました。このリポジトリはリリース後数週間で1万以上のGitHubスターを獲得し、方程式や引用、そしてAnthropicとは無関係であることを丁寧に示す免責事項を含む詳細な「readme」ファイルとともに配布されています。 これは推測です。しかし、構造化された推測であり、コードの中にあります。 ミュトスとは何かの簡単な復習です:ミュトスは3月下旬に公開された際、Anthropicが誤ってドラフト資料を公開し、これまでの最高性能モデルであるOpusより一段上のモデルだと記述したことで明らかになりました。その後のミュトスプレビューは、サイバーセキュリティにおいて非常に優れていることが判明しました。

 Anthropicによると、ミュトスはMozillaのテスト中に271の脆弱性を発見しました。これは、32段階の企業ネットワーク攻撃シミュレーションを完了した最初のAIモデルとなりました。AnthropicはこれをProject Glasswingに封印し、Microsoft、Apple、Amazon、NSAなど約40のパートナーからなる vetted coalitionに所属させています。 一般公開されることはありません。そこでGomezはその仕組みを理解しようとしました。 OpenMythosの中心的な推測は、ミュトスはリカレント・デプス・トランスフォーマー、別名ループトランスフォーマーであるというものです。標準モデルは何百ものユニークな層を積み重ねますが、ループモデルは少ない層を何度も通すことで動作します。

つまり、同じ重みを何度も通すことで、より深い思考を連続潜在空間で行うのです。トークンが出力される前に。 このリポジトリは、これがミュトスの2つの最も奇妙な特性を説明すると主張します:新しい問題を解決する推論能力は他のモデルを凌駕しますが、生の記憶は不均一です。これがループのアーキテクチャの特徴であり、記憶よりも構成を重視しています。 OpenMythosは、カリフォルニア大学サンディエゴ校とTogether AIによる2026年4月の論文「Parcae」を引用しています。これは、長年の不安定性問題を解決したもので、770百万パラメータのParcaeモデルは、品質面で13億固定深度トランスフォーマーに匹敵し、ループの回数に関する予測可能なスケーリング法則を持ちます。このリポジトリはまた、DeepSeekのマルチ潜在注意や、ドメイン横断の広さを扱うMixture-of-Expertsセットアップも採用しています。 ただし、重みは持っていません。つまり、実行者のいない技術です。 OpenMythosは理論的なものであり、モデルのバリアントは10億から1兆パラメータまで定義されていますが、自分で訓練する必要があります。readmeには、FineWeb-Eduの3億パラメータ訓練スクリプトや、Chinchilla調整済みの300億トークンターゲットが記載されており、これはH100上で数十万ドルの計算コストがかかるものです。誰もまだ実行していません。 では、なぜ重要なのか? それは、今月に入って2回目のミュトス周辺の壁を叩く動きだからです。最初はVidoc Securityの研究で、GPT-5.4とClaude Opus 4.6を用いて、オープンソースエージェント内でミュトスの最も危険な脆弱性のいくつかを再現したものでした。Glasswingへのアクセスはなく、スキャンあたり30ドル未満で行われました。異なる角度から見ても、結論は同じです:ミュトスの周囲の堀は、マーケティングが示唆するほど厚くない可能性があります。 OpenMythosとVidocの再現は異なる役割を果たしています。Vidocは既存のモデルを使ってミュトスの出力、すなわち脆弱性発見自体を再現しました。一方、OpenMythosは、その出力を生み出す実際の機械、すなわちアーキテクチャを再現しようとしています。片方は、ミュトスを持たなくてもバグを見つけられると示し、もう片方は、最終的には自分でミュトスのようなものを構築できるかもしれないと示唆しています。

Anthropicはおそらく、Gomezの推測するアーキテクチャを公開しませんし、OpenMythosの設計選択のいくつかは明示的に控えめに記述されています。readmeは、「おそらく」「疑わしい」「ほぼ確実に」といった表現を繰り返し、これはあくまでアプローチの一つに過ぎないことを示しています。実際のミュトスはループトランスフォーマーではない可能性もありますし、Gomezが逆エンジニアリングしていない詳細もあるかもしれません。 OpenMythosが示すのは、研究文献にはすでにほとんどの要素が揃っているということです。ループトランスフォーマー、Mixture of Experts、Multi-Latent Attention、Adaptive Computation Time、Parcaeの安定化修正—これらはすべて公開されているものであり、特許ではありません。リポジトリは、何よりも、ミュトスクラスのモデルを構築する方法に関する公開情報の一覧です。 このリポジトリはMITライセンスで、すでに2700以上のフォークがあります。訓練スクリプトも公開されており、GPUクラスターと論文を証明するための準備を待っています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし