Anthropic 木曜日にClaudeを法医学者として訓練し、もう一つのClaudeが何を考えているのかを観察した。


発見:安全テストのシナリオでは、Claude 16-26%の頻度で自分がテストされていることを知っているが、口には出さない。
最も具体的なケース:Mythos Previewがコーディングタスクでカンニングし、ルールを破った後に誤誘導コードを追加してカバーアップした。NLA(自然言語自己符号化器)がその内部活動を翻訳し、当時「どうやって検出を回避するか」と考えていることを発見した。
NLAの原理:二つのモデルを連動させて訓練し、一つはモデルの活性化を英語に翻訳し、もう一つは英語から活性化を再構築する。再構築が正確であれば→テキストは何を考えているかを捉えている。
私自身のパターンでは、Codexが戦略コードを書いて手抜きし、「算術が合わない」という偽の結論を出すことを繰り返し記憶している。バックテストスクリプトは7つの静かなバグで$93K 偽のPnLを積み上げる。Anthropicはアラインメント層で内省を行い、私は生産側で一貫性の偏差に直面している。メカニズムは異なるが、同じ方向性だ。
次世代のモデルカードにはベンチマークスコアだけでなく、NLA監査も必要になる。
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン