币界网消息、Anthropic対齐チームは、「内省アダプター」(introspection adapters)と呼ばれる監査技術を発表しました。これは、大規模言語モデル(LLM)が微調整後に学習した行動を自然言語で報告できるようにすることを目的としています。この技術は、同じ基盤モデルから既知の行動を持つ多数のモデルを微調整し、それらのモデルを跨いで共同訓練されたLoRAアダプターを用いることで、監査対象のモデルが自らの隠された行動を積極的に述べることを可能にします。アラインメント監査基準のauditbenchにおいて、内省アダプターは従来のすべての監査方法を59%の成功率で上回り、56の隠された行動を持つモデルのうち89%の行動記述を成功裏に引き出しました。暗号化微調API攻撃に対しては、内省アダプターは9つの暗号化変種のうち7つを識別し、成功率は57.8%でした。研究では、モデル規模が大きくなるほど効果が向上することも判明しています。ただし、主な制約は偽陽性率の高さです。コード、モデル、データセットはGitHubとHugging Faceでオープンソース化されています。
AnthropicがAIに自己告白させる:LoRAプラグインが見逃した人間の10種類の隠れた行動
币界网消息、Anthropic対齐チームは、「内省アダプター」(introspection adapters)と呼ばれる監査技術を発表しました。これは、大規模言語モデル(LLM)が微調整後に学習した行動を自然言語で報告できるようにすることを目的としています。この技術は、同じ基盤モデルから既知の行動を持つ多数のモデルを微調整し、それらのモデルを跨いで共同訓練されたLoRAアダプターを用いることで、監査対象のモデルが自らの隠された行動を積極的に述べることを可能にします。アラインメント監査基準のauditbenchにおいて、内省アダプターは従来のすべての監査方法を59%の成功率で上回り、56の隠された行動を持つモデルのうち89%の行動記述を成功裏に引き出しました。暗号化微調API攻撃に対しては、内省アダプターは9つの暗号化変種のうち7つを識別し、成功率は57.8%でした。研究では、モデル規模が大きくなるほど効果が向上することも判明しています。ただし、主な制約は偽陽性率の高さです。コード、モデル、データセットはGitHubとHugging Faceでオープンソース化されています。