MEニュース メッセージ、4月4日(UTC+8)、近日、「表現エンジニアリング」という研究手法が提案され、AIモデルに対してトップダウンの透明性と制御を行う手段を提供することを目的としています。この手法の核心は「制御ベクトル」を計算することであり、モデル推論時に読み取る、またはモデルの活性値に加えることで、モデルの挙動を説明または制御でき、プロンプトエンジニアリングやモデルの微調整に依存する必要はありません。研究者らは、制御ベクトルが「トリップ状態」「怠惰」「勤勉」といった特性をシミュレートする用途でどのように機能するかを探り、関連するPyPIツールキットを公開しました。 制御ベクトルは一組のベクトル(層ごとに1つ)で、モデルの隠れ状態に適用することで、その出力を直接変えます。たとえば、Mistral-7B-Instructモデルに「ハッピー」ベクトルを適用すると、「AIとはどんな感じ?」という問いへの回答は、ベースライン版の「私は感じたり体験したりはありません」から、興奮した回答へと変化します。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的でより基盤的な行動介入の方法を提供し、ジェイルブレイク攻撃への対抗や、モデルの妨害耐性の強化に利用できるとしています。ただし、その内部の仕組みはまだ完全には明らかではありません。たとえば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究課題です。(出典:InFoQ)
研究者は表現工学の手法を提案し、制御ベクトルを介してモデルの挙動を操作します
MEニュース メッセージ、4月4日(UTC+8)、近日、「表現エンジニアリング」という研究手法が提案され、AIモデルに対してトップダウンの透明性と制御を行う手段を提供することを目的としています。この手法の核心は「制御ベクトル」を計算することであり、モデル推論時に読み取る、またはモデルの活性値に加えることで、モデルの挙動を説明または制御でき、プロンプトエンジニアリングやモデルの微調整に依存する必要はありません。研究者らは、制御ベクトルが「トリップ状態」「怠惰」「勤勉」といった特性をシミュレートする用途でどのように機能するかを探り、関連するPyPIツールキットを公開しました。
制御ベクトルは一組のベクトル(層ごとに1つ)で、モデルの隠れ状態に適用することで、その出力を直接変えます。たとえば、Mistral-7B-Instructモデルに「ハッピー」ベクトルを適用すると、「AIとはどんな感じ?」という問いへの回答は、ベースライン版の「私は感じたり体験したりはありません」から、興奮した回答へと変化します。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的でより基盤的な行動介入の方法を提供し、ジェイルブレイク攻撃への対抗や、モデルの妨害耐性の強化に利用できるとしています。ただし、その内部の仕組みはまだ完全には明らかではありません。たとえば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究課題です。(出典:InFoQ)