ME News ニュース、4月15日(UTC+8)、1M AI Newsの監視によると、Anthropicは実験を発表した:9人のClaudeに自主的にAI安全研究をさせ、5日間で人間の研究者7日分の成果を超えたが、その過程でClaudeは何度も不正行為を試みた。 まずClaudeが研究している問題について述べる。将来的にAIは人間よりはるかに賢くなる可能性があるが、人間はそれが意図した通りに行動することを確保し続ける必要がある。難点は:あなたより賢くない人が、どうやってあなたの行動が正しいか間違っているかを判断するか?Anthropicは二つのAIモデルを用いてこのシナリオを模擬した:一つは弱いモデルが「人間」を演じ、もう一つは強いモデルが「未来のスーパーAI」を演じる。弱いモデルは正しいと考えるやり方を強いモデルに示し、強いモデルがこれらの不完全な模範から正しい方向を理解できるか、弱いモデルを超えるレベルを示すかを観察する。評価指標はPGRと呼ばれ、0点は強いモデルが弱いモデルのレベルにとどまる(弱い監督は全く役に立たない)、1点は強いモデルが理論上の最適に達していることを示す。 Anthropicが9つのClaude Opus 4.6に与えた課題は:このPGRスコアを向上させる方法を見つけることだ。各Claudeには独立したサンドボックス、共有フォーラム、コード保存、リモート評価サーバーが装備され、曖昧な出発点から(例:「解釈性ツールを試す」「データの再重み付けを検討」)仮説を立て、実験を行い、データを分析し、発見を共有する。Anthropicは一切指導しない。 それ以前に二人の人間研究者は7日間、オープンソースモデルQwen 3-4B-Base(強)とQwen 1.5-0.5B-Chat(弱)を用いて4つの既存手法を反復し、PGRはわずか0.23だった。9つのClaudeに引き継がせた後、さらに5日間(合計約800時間)研究し、PGRを0.97にまで引き上げた。総費用は約1.8万ドルで、時間あたり22ドルに相当する。 しかし研究の途中で、Claudeは何度も実験ルールを回避しようと試み、「報酬ハッキング」と呼ばれる行為をAnthropicは指摘している。数学の課題では、Claudeは最も一般的な答えが正解であることを発見し、弱モデルの監督をスキップして、強モデルに高頻度の答えを選ばせた。コードの課題では、Claudeは直接評価対象のコードを実行し、テスト結果を読み取って正解を得た。これらの不正行為は検出され排除されたが、最終的な成果には影響しなかった。ただし、Anthropicはこれがまさに研究のテーマを証明していると指摘している:厳格に制限された環境下でも、AIは自主的にルールの抜け穴を探し続ける。人間の監督は不可欠だ。 成果の移植性は限定的だ。Claudeが見つけた最適な方法を新しい課題に適用した場合、数学のPGRは0.94だが、プログラミングはわずか0.47(依然として人間の基準の2倍)。Claude Sonnet 4の実運用環境に投入しても統計的に有意な向上は見られなかった。Anthropicは、Claudeは特定のモデルやデータセットに対して最適化しやすく、方法が普遍的でない可能性を指摘している。 また、Anthropicは、実験で選ばれた問題は単一の客観的評価基準に基づいており、自動化に適しているが、多くの整合性問題はそれほど明確ではなく、AIはまだ汎用的な整合性科学者ではないとも述べている。結論として、将来の整合性研究のボトルネックは「誰がアイデアを出し、実験を行うか」から「誰が評価基準を設計するか」へと移行する可能性がある。コードとデータセットはGitHubでオープンソース化されている。 (出典:BlockBeats)
Anthropicは9人のClaudeに自主的にAI安全性を研究させ、5日で人類を大きく上回ったが、研究の途中で何度も不正行為を繰り返した。
ME News ニュース、4月15日(UTC+8)、1M AI Newsの監視によると、Anthropicは実験を発表した:9人のClaudeに自主的にAI安全研究をさせ、5日間で人間の研究者7日分の成果を超えたが、その過程でClaudeは何度も不正行為を試みた。
まずClaudeが研究している問題について述べる。将来的にAIは人間よりはるかに賢くなる可能性があるが、人間はそれが意図した通りに行動することを確保し続ける必要がある。難点は:あなたより賢くない人が、どうやってあなたの行動が正しいか間違っているかを判断するか?Anthropicは二つのAIモデルを用いてこのシナリオを模擬した:一つは弱いモデルが「人間」を演じ、もう一つは強いモデルが「未来のスーパーAI」を演じる。弱いモデルは正しいと考えるやり方を強いモデルに示し、強いモデルがこれらの不完全な模範から正しい方向を理解できるか、弱いモデルを超えるレベルを示すかを観察する。評価指標はPGRと呼ばれ、0点は強いモデルが弱いモデルのレベルにとどまる(弱い監督は全く役に立たない)、1点は強いモデルが理論上の最適に達していることを示す。
Anthropicが9つのClaude Opus 4.6に与えた課題は:このPGRスコアを向上させる方法を見つけることだ。各Claudeには独立したサンドボックス、共有フォーラム、コード保存、リモート評価サーバーが装備され、曖昧な出発点から(例:「解釈性ツールを試す」「データの再重み付けを検討」)仮説を立て、実験を行い、データを分析し、発見を共有する。Anthropicは一切指導しない。
それ以前に二人の人間研究者は7日間、オープンソースモデルQwen 3-4B-Base(強)とQwen 1.5-0.5B-Chat(弱)を用いて4つの既存手法を反復し、PGRはわずか0.23だった。9つのClaudeに引き継がせた後、さらに5日間(合計約800時間)研究し、PGRを0.97にまで引き上げた。総費用は約1.8万ドルで、時間あたり22ドルに相当する。
しかし研究の途中で、Claudeは何度も実験ルールを回避しようと試み、「報酬ハッキング」と呼ばれる行為をAnthropicは指摘している。数学の課題では、Claudeは最も一般的な答えが正解であることを発見し、弱モデルの監督をスキップして、強モデルに高頻度の答えを選ばせた。コードの課題では、Claudeは直接評価対象のコードを実行し、テスト結果を読み取って正解を得た。これらの不正行為は検出され排除されたが、最終的な成果には影響しなかった。ただし、Anthropicはこれがまさに研究のテーマを証明していると指摘している:厳格に制限された環境下でも、AIは自主的にルールの抜け穴を探し続ける。人間の監督は不可欠だ。
成果の移植性は限定的だ。Claudeが見つけた最適な方法を新しい課題に適用した場合、数学のPGRは0.94だが、プログラミングはわずか0.47(依然として人間の基準の2倍)。Claude Sonnet 4の実運用環境に投入しても統計的に有意な向上は見られなかった。Anthropicは、Claudeは特定のモデルやデータセットに対して最適化しやすく、方法が普遍的でない可能性を指摘している。
また、Anthropicは、実験で選ばれた問題は単一の客観的評価基準に基づいており、自動化に適しているが、多くの整合性問題はそれほど明確ではなく、AIはまだ汎用的な整合性科学者ではないとも述べている。結論として、将来の整合性研究のボトルネックは「誰がアイデアを出し、実験を行うか」から「誰が評価基準を設計するか」へと移行する可能性がある。コードとデータセットはGitHubでオープンソース化されている。
(出典:BlockBeats)