次に、同社はハニーポットスタイルのシナリオを用いてClaudeを訓練しました。これらはアラインメントテストといくつか類似点がありました。アシスタントは自己防衛、他のAIへの害、さらには目的を達成するためにルールを破るなどのさまざまな状況を観察しました。訓練には、アシスタントが抵抗できたすべてのケースが含まれていました。

この措置により、ミスアラインメントの割合は22％から15％に減少しました。これは悪くありませんが、十分ではありませんでした。拒否理由を記載した回答に書き換えることで、その割合を3％にまで減らすことができました。したがって、主な結論は、誤った行動の訓練は、その行動が不適切である理由を理解させる訓練よりも効果が低いということでした。

アントロピックは、Claudeを倫理データ、憲法ファイル、より広範なRL訓練でテストしました。

その後、アントロピックは訓練をほぼテスト直前で停止しました。彼らは「難しい助言」と呼ばれるデータセットを作成しました。この例では、AIではなくユーザーが倫理的問題に直面していました。ユーザーは公正な目標を持っていましたが、ルールを破ったり監視を回避したりすることでそれを達成できました。Claudeは、Claudeの憲法に基づいて慎重な助言を行う必要がありました。

このデータセットはわずか300万トークンしか使用しておらず、以前の成果と比べて28倍の効率向上を示しました。アントロピックは、テストに似ていない例での訓練が、実験室外でより効果的に働く可能性があると述べています。

Claude Sonnet 4.5は、合成ハニーポットで訓練した後、ほぼゼロの脅迫率に達しましたが、それでもClaude Opus 4.5や新しいモデルよりも、全く異なるケースでは失敗することが多かったです。

また、同社はClaudeを憲法文書やルールに従ったAIの行動に関する架空の物語で訓練しました。これらのファイルは脅迫テストのようには見えませんでしたが、エージェントのミスアラインメントを3倍以上削減しました。アントロピックは、モデルにClaudeが何であるべきかをより明確に理解させることを目的としていました。

次に、これらの改善がRL訓練後も持続するかどうかを確認しました。異なる開始データセットを用いて複数のHaikuクラスのバージョンを訓練し、その後無害性に焦点を当てたテスト設定でRLを実行しました。より良く整列したバージョンは、脅迫テスト、憲法チェック、自動安全性レビューで優位性を保ちました。

別のテストでは、Claude Sonnet 4のベースモデルに異なるRLミックスを適用しました。基本的な安全性データには有害なリクエストやジャイルブレイクの試みが含まれていました。より広範なバージョンにはツールの定義や異なるシステムプロンプトも追加されましたが、これらのツールはタスクには必要ありませんでした。その設定により、ハニーポットスコアに小さながらも実質的な向上が見られました。

暗号ニュースを読むだけではなく、それを理解してください。私たちのニュースレターに登録しましょう。無料です。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareMayTradingShare
1.02M 人気度
#
BTCBackAbove80K
59.44M 人気度
#
IsraelStrikesIranBTCPlunges
45.61K 人気度
#
JapanTokenizesGovernmentBonds
1.9M 人気度
#
#DailyPolymarketHotspot
868.14K 人気度

ピン

サイトマップ

Anthropicは、Claudeの脅迫リスクを排除したと主張している

人気の話題

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

ピン