币界网消息,Anthropic发布研究博客,介绍在Claude 4.5及后续模型中消除「智能体失齐」的训练策略。研究表明,仅靠「正确行为示范」效果有限,真正有效的是教模型「为什么要这么做」,并通过合成文档重塑价值观。团队发现,针对性学习数万条拒绝干坏事的记录,失齐率仅从22%降至15%。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论