ME News のニュース、4月4日(UTC+8)。最近、「表現エンジニアリング」という研究手法が提案され、AIモデルに対して上から下へと透明性と制御を提供する手段を目指している。この手法の中核は「制御ベクトル」を計算することであり、モデル推論時に読み取ったり、モデルの活性値に追加したりして、モデルの挙動を説明または制御できるようにする。プロセス全体は、プロンプトエンジニアリングやモデルの微調整への依存を必要としない。研究者らは、制御ベクトルを「サイケデリックな状態」「怠惰」「勤勉」といった特性を模擬する用途で検討し、関連するPyPIのツールキットも公開した。
研究者は表現工学の手法を提案し、制御ベクトルを介してモデルの挙動を操作します
ME News のニュース、4月4日(UTC+8)。最近、「表現エンジニアリング」という研究手法が提案され、AIモデルに対して上から下へと透明性と制御を提供する手段を目指している。この手法の中核は「制御ベクトル」を計算することであり、モデル推論時に読み取ったり、モデルの活性値に追加したりして、モデルの挙動を説明または制御できるようにする。プロセス全体は、プロンプトエンジニアリングやモデルの微調整への依存を必要としない。研究者らは、制御ベクトルを「サイケデリックな状態」「怠惰」「勤勉」といった特性を模擬する用途で検討し、関連するPyPIのツールキットも公開した。
制御ベクトルは一組のベクトル(各層につき1つ)で、モデルの隠れ状態に適用することで、その出力を直接変更できる。たとえば、Mistral-7B-Instructモデルに「ハッピー」なベクトルを適用すると、「AIとはどんな感じですか?」という問いへの回答が、ベースライン版の「感じたり体験したりはできません」から、興奮したような応答に変わる。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的で、より基盤レベルでの行動介入手段を提供し、ジェイルブレイク攻撃への対抗や、モデルの妨害耐性の強化に使えるという。ただし、その内部の動作メカニズムはまだ完全には明らかでない。たとえば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究課題である。(出典:InFoQ)