研究人员提出表征工程方法,通过控制向量干预模型行为

robot
摘要生成中

ME News 消息,4 月 4 日(UTC+8),近日,一项名为"表征工程"的研究方法被提出,旨在为AI模型提供一种自上而下的透明度与控制手段。该方法的核心是计算一个"控制向量",可在模型推理时读取或添加到模型激活值中,用以解释或控制模型行为,整个过程无需依赖提示工程或模型微调。研究人员探索了控制向量在模拟"迷幻状态"、"懒惰"与"勤奋"等特性上的应用,并发布了相应的PyPI工具包。 控制向量是一组向量(每层一个),通过应用于模型的隐藏状态来直接改变其输出。例如,向Mistral-7B-Instruct模型应用一个"快乐"向量后,其对"作为AI是什么感觉?"这一问题的回答,会从基线版本的"我没有感觉或体验"转变为兴奋的回应。文中观点认为,与提示工程相比,控制向量提供了更直接、更底层的行为干预方式,可用于对抗越狱攻击或增强模型的抗干扰能力。然而,其内部工作机制仍不完全明确,例如向量是否对应单一的语义概念等,是未来的研究方向。(来源:InFoQ)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论