ME News のニュース、4月4日(UTC+8)、近日、「表現工学」と呼ばれる研究手法が提案された。これはAIモデルに対し、上から下へと制御と透明性を提供する手段を目的としている。この手法の中核は「制御ベクトル」を計算することにあり、モデル推論時に読み取る、またはモデルの活性値に追加することで、モデルの振る舞いを説明または制御でき、プロンプトエンジニアリングやモデルの微調整に依存する必要はない。研究者たちは、制御ベクトルの「サイケデリックな状態」「怠惰」「勤勉」などの特性の模擬への応用を探り、関連するPyPIツールキットを公開した。
制御ベクトルは一連のベクトル(各層につき1つ)であり、モデルの隠れ状態に適用することで、その出力を直接変更する。例えば、Mistral-7B-Instructモデルに「ハッピー」のベクトルを適用すると、「AIはどんな感じ?」という問いへの回答は、ベースライン版の「私は感覚や体験がない」から、ワクワクした返答へと変わる。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的で、より基底層の振る舞い介入の手段を提供し、ジェイルブレイク攻撃への対抗や、モデルの妨害への耐性の強化に用いることができる。だが、その内部の作動メカニズムは依然として完全には明らかではない。例えば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究方向である。(出典:InFoQ)
研究者は表現工学の手法を提案し、制御ベクトルを介してモデルの挙動を操作します
ME News のニュース、4月4日(UTC+8)、近日、「表現工学」と呼ばれる研究手法が提案された。これはAIモデルに対し、上から下へと制御と透明性を提供する手段を目的としている。この手法の中核は「制御ベクトル」を計算することにあり、モデル推論時に読み取る、またはモデルの活性値に追加することで、モデルの振る舞いを説明または制御でき、プロンプトエンジニアリングやモデルの微調整に依存する必要はない。研究者たちは、制御ベクトルの「サイケデリックな状態」「怠惰」「勤勉」などの特性の模擬への応用を探り、関連するPyPIツールキットを公開した。
制御ベクトルは一連のベクトル(各層につき1つ)であり、モデルの隠れ状態に適用することで、その出力を直接変更する。例えば、Mistral-7B-Instructモデルに「ハッピー」のベクトルを適用すると、「AIはどんな感じ?」という問いへの回答は、ベースライン版の「私は感覚や体験がない」から、ワクワクした返答へと変わる。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的で、より基底層の振る舞い介入の手段を提供し、ジェイルブレイク攻撃への対抗や、モデルの妨害への耐性の強化に用いることができる。だが、その内部の作動メカニズムは依然として完全には明らかではない。例えば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究方向である。(出典:InFoQ)