広場
最新
注目
ニュース
プロフィール
ポスト
AnthropicがAIに自己告白させる:LoRAプラグインが見逃した人間の10種類の隠れた行動
CoinNetwork
2026-04-30 11:10:51
フォロー
概要作成中
币界网消息、Anthropic対齐チームは、「内省アダプター」(introspection adapters)と呼ばれる監査技術を発表しました。これは、大規模言語モデル(LLM)が微調整後に学習した行動を自然言語で報告できるようにすることを目的としています。この技術は、同じ基盤モデルから既知の行動を持つ多数のモデルを微調整し、それらのモデルを跨いで共同訓練されたLoRAアダプターを用いることで、監査対象のモデルが自らの隠された行動を積極的に述べることを可能にします。アラインメント監査基準のauditbenchにおいて、内省アダプターは従来のすべての監査方法を59%の成功率で上回り、56の隠された行動を持つモデルのうち89%の行動記述を成功裏に引き出しました。暗号化微調API攻撃に対しては、内省アダプターは9つの暗号化変種のうち7つを識別し、成功率は57.8%でした。研究では、モデル規模が大きくなるほど効果が向上することも判明しています。ただし、主な制約は偽陽性率の高さです。コード、モデル、データセットはGitHubとHugging Faceでオープンソース化されています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
SKHynixTopsKOSPIByMarketCap
232.64K 人気度
#
GateCompletesDividendDistribution
3.95M 人気度
#
IsraelStrikesIranBTCPlunges
66.79K 人気度
#
PredictWorldCupShare20000U
551.59K 人気度
#
SolanaEcosystemANSEMSurges
22.03M 人気度
ピン留め
サイトマップ
AnthropicがAIに自己告白させる:LoRAプラグインが見逃した人間の10種類の隠れた行動