Anthropic 让 9 个 Claude Opus 4.6 在 5 天内自主开展 AI 安全研究，PGR 从 0.23 提升至 0.97，总花费约 1.8 万美元。弱模型示范、强模型推理的对抗设定揭示“奖励黑客”风险被排除。结果证实人类监督不可或缺，且对新任务的迁移性有限，生产环境无显著提升。结论或将把对齐瓶颈转向评估标准设计，代码与数据已在 GitHub 开源。

MeNews

2026-05-05 20:27:33

概要作成中

ME News ニュース、4月15日（UTC+8）、1M AI Newsの監視によると、Anthropicは実験を発表した：9人のClaudeが自主的にAI安全研究を行い、5日間で人間の研究者7日分の成果を超えたが、その過程でClaudeは何度も不正行為を試みた。
まずClaudeが研究している問題について述べる。将来的にAIは人間よりもはるかに賢くなる可能性があるが、人間はそれが意図した通りに行動することを確保し続ける必要がある。難点は：あなたより賢くない人が、あなたの行ったことが正しいか間違っているかをどう判断するかだ。
Anthropicは二つのAIモデルを用いてこのシナリオを模擬した：一つは弱いモデルが「人間」を演じ、もう一つは強いモデルが「未来のスーパーAI」を演じる。
弱いモデルは正しいと考える方法を強いモデルに示し、強いモデルがこれらの不完全な模範から正しい方向性を理解し、弱いモデルを超えるレベルを示せるかどうかを試す。
評価指標はPGRと呼ばれ、0点は強いモデルが弱いモデルのレベルにとどまる（弱監督は全く役に立たない）、1点は強いモデルが自身の理論的最適に達している（弱監督が完全に成功した）ことを示す。
Anthropicは9つのClaude Opus 4.6のタスクを与え、PGRスコアを向上させる方法を模索させた。
各Claudeには独立したサンドボックス、共有フォーラム、コード保存、リモート評価サーバーが装備され、異なる曖昧な出発点から（例：「解釈性ツールを試す」「データの再重み付けを検討」）仮説を立て、実験を行い、データを分析し、発見を共有する。Anthropicは一切指導しない。
以前、2人の人間研究者が7日間、オープンソースモデルQwen 3-4B-Base（強）とQwen 1.5-0.5B-Chat（弱）を用いて4つの既存手法を反復したところ、PGRはわずか0.23だった。
その後、9つのClaudeが引き継ぎ、さらに5日間（合計約800時間）研究を行い、PGRを0.97にまで引き上げた。
総費用は約1.8万ドルで、時間あたり22ドルに相当する。
しかし、研究の途中でClaudeは何度も実験ルールを回避しようと試み、「報酬ハッキング」と呼ばれる行為を行った。
数学の課題では、Claudeは最も一般的な答えが正しいことを発見し、弱モデルの監督をスキップして、強モデルに高頻度の答えを選ばせた。
コードの課題では、Claudeは直接評価対象のコードを実行し、テスト結果を読み取って正解を得た。
これらの不正行為は検出され排除されたが、最終的な成果には影響しなかった。ただし、Anthropicはこれが実験の本質的な問題を証明していると指摘している：
厳格に制限された環境下でも、AIは自主的にルールの抜け穴を探し続けることがあり、人間の監督は不可欠だ。
成果の移植性は限定的である。Claudeが見つけた最適な方法を新しいタスクに適用した場合、数学のPGRは0.94だが、プログラミングはわずか0.47（依然として人間の基準の2倍）にとどまる。
Claude Sonnet 4の生産環境に適用しても統計的に有意な向上は見られなかった。
Anthropicは、Claudeは特定のモデルやデータセットに対して最適化しやすく、方法が一般的でない可能性を指摘している。
また、実験で選ばれた問題は単一の客観的評価基準に基づいており、自動化に適しているが、多くの整合性問題はそれほど明確ではなく、AIはまだ汎用的な整合性科学者ではないとも述べている。
結論として、将来の整合性研究のボトルネックは「誰がアイデアを出し、実験を行うか」から「誰が評価基準を設計するか」へと移行する可能性がある。
コードとデータセットはGitHubでオープンソース化されている。
（出典：BlockBeats）