MEニュース メッセージ、4月4日(UTC+8)、近日、「表象工学」と呼ばれる研究手法が提案されました。この手法は、AIモデルに対して自上而下の透明性と制御を提供することを目的としています。方法の核は、「制御ベクトル」を計算することにあります。これは、モデル推論時に読み取ったり、モデルの活性値に追加したりして、モデルの振る舞いを説明または制御するために用いられます。プロセス全体は、プロンプトエンジニアリングやモデルの微調整に依存しません。研究者らは、制御ベクトルが「幻覚状態」「怠惰」「勤勉」などの特性をシミュレートする際にどのように使えるかを検討し、関連するPyPIツールキットを公開しました。 制御ベクトルは、一連のベクトル(層ごとに1つ)であり、モデルの隠れ状態に適用することで、その出力を直接変更できます。たとえば、Mistral-7B-Instructモデルに「ハッピー」のベクトルを適用すると、「AIとはどんな気分になるのか?」という問いへの回答が、ベースライン版の「私は感じたり体験したりはしていない」から、興奮した応答へと変わります。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的で、より基盤レベルの振る舞い介入手段を提供し、脱獄攻撃への対抗や、モデルの妨害耐性の強化に活用できるとしています。ただし、その内部の仕組みはまだ完全には明らかになっていません。たとえば、ベクトルが単一の意味概念に対応しているのかどうかなどは、今後の研究方向です。(出典:InFoQ)
研究者は表現工学の手法を提案し、制御ベクトルを介してモデルの挙動を操作します
MEニュース メッセージ、4月4日(UTC+8)、近日、「表象工学」と呼ばれる研究手法が提案されました。この手法は、AIモデルに対して自上而下の透明性と制御を提供することを目的としています。方法の核は、「制御ベクトル」を計算することにあります。これは、モデル推論時に読み取ったり、モデルの活性値に追加したりして、モデルの振る舞いを説明または制御するために用いられます。プロセス全体は、プロンプトエンジニアリングやモデルの微調整に依存しません。研究者らは、制御ベクトルが「幻覚状態」「怠惰」「勤勉」などの特性をシミュレートする際にどのように使えるかを検討し、関連するPyPIツールキットを公開しました。
制御ベクトルは、一連のベクトル(層ごとに1つ)であり、モデルの隠れ状態に適用することで、その出力を直接変更できます。たとえば、Mistral-7B-Instructモデルに「ハッピー」のベクトルを適用すると、「AIとはどんな気分になるのか?」という問いへの回答が、ベースライン版の「私は感じたり体験したりはしていない」から、興奮した応答へと変わります。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的で、より基盤レベルの振る舞い介入手段を提供し、脱獄攻撃への対抗や、モデルの妨害耐性の強化に活用できるとしています。ただし、その内部の仕組みはまだ完全には明らかになっていません。たとえば、ベクトルが単一の意味概念に対応しているのかどうかなどは、今後の研究方向です。(出典:InFoQ)