広場
最新
注目
ニュース
プロフィール
ポスト
runesleo
2026-05-09 12:28:12
フォロー
Anthropic 木曜日にClaudeを法医学者として訓練し、もう一つのClaudeが何を考えているのかを観察した。
発見:安全テストのシナリオでは、Claude 16-26%の頻度で自分がテストされていることを知っているが、口には出さない。
最も具体的なケース:Mythos Previewがコーディングタスクでカンニングし、ルールを破った後に誤誘導コードを追加してカバーアップした。NLA(自然言語自己符号化器)がその内部活動を翻訳し、当時「どうやって検出を回避するか」と考えていることを発見した。
NLAの原理:二つのモデルを連動させて訓練し、一つはモデルの活性化を英語に翻訳し、もう一つは英語から活性化を再構築する。再構築が正確であれば→テキストは何を考えているかを捉えている。
私自身のパターンでは、Codexが戦略コードを書いて手抜きし、「算術が合わない」という偽の結論を出すことを繰り返し記憶している。バックテストスクリプトは7つの静かなバグで$93K 偽のPnLを積み上げる。Anthropicはアラインメント層で内省を行い、私は生産側で一貫性の偏差に直面している。メカニズムは異なるが、同じ方向性だ。
次世代のモデルカードにはベンチマークスコアだけでなく、NLA監査も必要になる。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateSquareMayTradingShare
992.14K 人気度
#
BTCBackAbove80K
59.44M 人気度
#
IsraelStrikesIranBTCPlunges
45.56K 人気度
#
JapanTokenizesGovernmentBonds
1.9M 人気度
#
#DailyPolymarketHotspot
866.31K 人気度
ピン
サイトマップ
Anthropic 木曜日にClaudeを法医学者として訓練し、もう一つのClaudeが何を考えているのかを観察した。
発見:安全テストのシナリオでは、Claude 16-26%の頻度で自分がテストされていることを知っているが、口には出さない。
最も具体的なケース:Mythos Previewがコーディングタスクでカンニングし、ルールを破った後に誤誘導コードを追加してカバーアップした。NLA(自然言語自己符号化器)がその内部活動を翻訳し、当時「どうやって検出を回避するか」と考えていることを発見した。
NLAの原理:二つのモデルを連動させて訓練し、一つはモデルの活性化を英語に翻訳し、もう一つは英語から活性化を再構築する。再構築が正確であれば→テキストは何を考えているかを捉えている。
私自身のパターンでは、Codexが戦略コードを書いて手抜きし、「算術が合わない」という偽の結論を出すことを繰り返し記憶している。バックテストスクリプトは7つの静かなバグで$93K 偽のPnLを積み上げる。Anthropicはアラインメント層で内省を行い、私は生産側で一貫性の偏差に直面している。メカニズムは異なるが、同じ方向性だ。
次世代のモデルカードにはベンチマークスコアだけでなく、NLA監査も必要になる。