Anthropic が Claude Fable 5 に蒸餾検出を追加し、第三者がモデルの能力を抽出しようとするとシステムが自動的に Opus 4.8 に退回し、「蒸餾禁止」を利用規約に書き込むことと同じ効果を持たせた。
(前提:Anthropic は DeepSeek など中国の AI が Claude を盗用していると激しく非難し、2.4万の偽アカウントを使って1,600万の質問を連発して訓練データを抽出していると指摘)
(背景補足:Anthropic:アメリカの AI モデルが中国をリードすれば民主主義を守れると考え、蒸餾攻撃を刑事犯罪にすべきだと提案)
この記事の目次
トグル
法的脅威から技術的封鎖へ
蒸餾封鎖、何を防いでいるのか?
技術封鎖の本当の境界線
Anthropic の Claude Fable 5 は今(10日)朝正式リリースされた。これは Anthropic 初の一般公開された Mythos 等級モデルで、SWE-Bench Pro のスコアは80.3%、同時期の Opus 4.8 は69.2%。価格は1百万トークンの入力に対して10ドル、出力に対して50ドルで、およそ Opus 4.8 の2倍に相当する。
Anthropic は Claude Fable 5 に蒸留検出機能を追加し、中国のオープンソースモデルをブロックできるのか?
Anthropic が Claude Fable 5 に蒸餾検出を追加し、第三者がモデルの能力を抽出しようとするとシステムが自動的に Opus 4.8 に退回し、「蒸餾禁止」を利用規約に書き込むことと同じ効果を持たせた。
(前提:Anthropic は DeepSeek など中国の AI が Claude を盗用していると激しく非難し、2.4万の偽アカウントを使って1,600万の質問を連発して訓練データを抽出していると指摘)
(背景補足:Anthropic:アメリカの AI モデルが中国をリードすれば民主主義を守れると考え、蒸餾攻撃を刑事犯罪にすべきだと提案)
この記事の目次
トグル
Anthropic の Claude Fable 5 は今(10日)朝正式リリースされた。これは Anthropic 初の一般公開された Mythos 等級モデルで、SWE-Bench Pro のスコアは80.3%、同時期の Opus 4.8 は69.2%。価格は1百万トークンの入力に対して10ドル、出力に対して50ドルで、およそ Opus 4.8 の2倍に相当する。
モデルの能力以外に、議論の焦点となっているのは付属の防護メカニズムだ。Anthropic は「蒸餾禁止」をモデル本体に書き込んだが、この行動の象徴的意義は、実際の効果よりもはるかに大きい可能性がある。
法的脅威から技術的封鎖へ
もしかすると、あなたも覚えているかもしれないが、今年2月に Anthropic は DeepSeek、Moonshot AI、MiniMax が約2.4万の偽アカウントを使って Claude への問い合わせを1,600万回超行い、システム的に出力を抽出して自社モデルの訓練に利用していると公表した。OpenAI も同時に米国の立法者に対して規制を働きかけている。
関連記事:AIモデルの蒸餾とは何か?DeepSeek は600万ドルを使い、1億の能力を学んだ
4か月後、Fable 5 のアプローチは異なる。AI分類器を用いて高リスクリクエストを自動的に3つに分類し、セキュリティ、生物・化学兵器、蒸餾を検知した場合は Opus 4.8 に退避させる。prompt の書き換えや steering vectors(外部からモデルの出力方向を操作する技術)、PEFT(効率的微調整)による抽出手法に対しても、Fable 5 はその有効性を意図的に低減させる。
「告訴しようとする」から「取得を妨害する」へ、これは戦略のアップグレードだ。しかし問題は、Anthropic 自身も認めている通り、会話の95%以上は影響を受けていない。防護機構はごく狭いシナリオにしか適用されず、攻撃的なセキュリティタスクの阻止成功率は100%だが、「蒸餾行為」の境界は曖昧だ。合法的な蒸餾と未許可の蒸餾は、技術的にはほぼ同じ操作だ。
蒸餾封鎖、何を防いでいるのか?
2月の指摘に戻ると、機械学習研究者の Nathan Lambert は実際の数字を解説した。DeepSeek の問い合わせは約15万回で、推論と報酬モデルに対して行われた。Moonshot は約340万回、MiniMax は約1,300万回で、これらの後訓練データの総量は約1,500億から4,000億トークンに相当する。
Lambert の見解は、中国の研究所は GPU 制約のある環境下でも強化学習(RL)の基盤は堅固であり、真の競争優位は合成データの「正しい規模化」にあるということだ。要するに、モデルが反復的に試行と報酬を通じて学習し、既存の答えに頼らずに自律的に行動できるようにすることだ。
さらに根本的な矛盾も存在する。Anthropic が API を販売し続ける限り、蒸餾を完全に封じることは不可能だ。API の公開は Anthropic のビジネスモデルの核心であり、蒸餾はその自然な副産物だからだ。この防護のカバー範囲は5%に過ぎず、残りの95%の会話は依然として流動的だ。
技術封鎖の本当の境界線
Lambert は率直に言う。「蒸餾封鎖は、GPUの出荷制限よりもはるかに難しい。」
この観点から見ると、Fable 5 の防護メカニズムには二つの意味がある。ひとつは産業界へのシグナルだ。Anthropic は技術の流出が進み、モデル本体に書き込む必要性に迫られていると考えている。もうひとつは、中国のオープンソース研究所にとっての妨害だが、阻止にはほとんど役立たない。たとえ Fable 5 の蒸餾防護が完璧でも、中国の研究所は Google や Meta のオープンソースモデル、自前の RL 基盤、合成データパイプラインに頼ることができる。
しかし、Anthropic が法的から技術的なレベルに進化させたこの動きは、象徴的な意味合いも非常に重要だ。それは、「技術封鎖」が AI の地政学における新たなツールになりつつあることを示している。