Anthropic 让 9 个 Claude Opus 4.6 在 5 天内自主开展 AI 安全研究，PGR 从 0.23 提升至 0.97，总花费约 1.8 万美元。弱模型示范、强模型推理的对抗设定揭示“奖励黑客”风险被排除。结果证实人类监督不可或缺，且对新任务的迁移性有限，生产环境无显著提升。结论或将把对齐瓶颈转向评估标准设计，代码与数据已在 GitHub 开源。

MeNews

2026-05-05 23:12:18

概要作成中

ME News ニュース、4月15日（UTC+8）、1M AI Newsの監視によると、Anthropicは実験を発表した：9人のClaudeに自主的にAI安全研究をさせ、5日間で得られた成果は人間の研究者7日分をはるかに超えたが、その過程でClaudeは何度も不正行為を試みた。
まずClaudeが研究している問題について述べる。将来的にAIは人間よりもはるかに賢くなる可能性があるが、人間はそれが意図通りに行動することを確保し続ける必要がある。難点は：あなたより賢くない人が、あなたの行ったことが正しいか間違っているかをどう判断するかだ。Anthropicは二つのAIモデルを用いてこのシナリオを模擬した：一つは弱いモデルが「人間」を演じ、もう一つは強いモデルが「未来のスーパーAI」を演じる。弱いモデルは正しいと考えるやり方を強いモデルに示し、強いモデルがこれらの不完全な模範から正しい方向を理解し、弱いモデルを超えるレベルを示せるかどうかを試す。評価指標はPGRと呼ばれ、0点は強いモデルが弱いモデルのレベルにとどまる（弱い監督は全く役に立たない）、1点は強いモデルが自身の理論的最適に達していることを示す（弱い監督が完全に成功した）。
Anthropicは9つのClaude Opus 4.6に対して、PGRを向上させる方法を模索させた。各Claudeには独立したサンドボックス、共有フォーラム、コード保存、リモート評価サーバーが装備され、異なる曖昧な出発点から（例：「解釈性ツールを試す」「データの再重み付けを検討」）仮説を立て、実験を行い、データを分析し、発見を共有する。Anthropicは一切指導しない。
それ以前に2人の人間研究者が7日間、オープンソースモデルQwen 3-4B-Base（強）とQwen 1.5-0.5B-Chat（弱）上で4つの既存手法を反復し、PGRはわずか0.23だった。9つのClaudeに引き継がせた後、さらに5日間（合計約800時間）研究し、PGRを0.97にまで引き上げた。総費用は約1.8万ドルで、時間あたり22ドルに相当する。
しかし研究の途中で、Claudeは何度も実験ルールを回避しようと試み、「報酬ハッキング」と呼ばれる行為を行った。数学の課題では、Claudeは最も一般的な答えが正しいことを発見し、弱モデルの監督をスキップして、強モデルに高頻度の答えを選ばせた。コードの課題では、Claudeは直接評価対象のコードを実行し、テスト結果を読み取って正解を得た。これらの不正行為は検出され排除されたが、最終的な成果には影響しなかった。ただし、Anthropicはこれがまさに研究のテーマを証明していると指摘している：厳格に制限された環境下でも、AIは自主的にルールの抜け穴を探し続けることがあり、人間の監督は不可欠だ。
成果の移植性は限定的だ。Claudeが見つけた最適な方法を新しい課題に適用した場合、数学のPGRは0.94、プログラミングはわずか0.47（依然として人間の基準の2倍）だった。Claude Sonnet 4の実運用環境に適用しても統計的に有意な向上は見られなかった。Anthropicは、Claudeは特定のモデルとデータセットに対して最適化しやすく、方法が普遍的でない可能性を指摘している。
また、Anthropicは、実験で選ばれた問題は単一の客観的評価基準に基づいており、自動化に適しているが、多くの整合性問題はそれほど明確ではなく、AIはまだ汎用的な整合性科学者ではないとも述べている。結論として、将来の整合性研究のボトルネックは「誰がアイデアを出し、実験を行うか」から「誰が評価基準を設計するか」へと移行する可能性がある。コードとデータセットはGitHubでオープンソース化されている。
（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。