✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
研究人员提出表征工程方法,通过控制向量干预模型行为
ME News 消息,4 月 4 日(UTC+8),近日,一项名为"表征工程"的研究方法被提出,旨在为AI模型提供一种自上而下的透明度与控制手段。该方法的核心是计算一个"控制向量",可在模型推理时读取或添加到模型激活值中,用以解释或控制模型行为,整个过程无需依赖提示工程或模型微调。研究人员探索了控制向量在模拟"迷幻状态"、"懒惰"与"勤奋"等特性上的应用,并发布了相应的PyPI工具包。 控制向量是一组向量(每层一个),通过应用于模型的隐藏状态来直接改变其输出。例如,向Mistral-7B-Instruct模型应用一个"快乐"向量后,其对"作为AI是什么感觉?"这一问题的回答,会从基线版本的"我没有感觉或体验"转变为兴奋的回应。文中观点认为,与提示工程相比,控制向量提供了更直接、更底层的行为干预方式,可用于对抗越狱攻击或增强模型的抗干扰能力。然而,其内部工作机制仍不完全明确,例如向量是否对应单一的语义概念等,是未来的研究方向。(来源:InFoQ)