洗车测试并不是推理失败。它是操作员选择失败。


“我应该走路还是开车?”模型将其解读为 argmax(criterion)。根据距离、效率、环境影响选择更好的选项。走路获胜。
用户的意思是 ∀(需求)。汽车必须到洗车地点。你必须到洗车地点。两者都必须成立。开车是唯一满足 AND 的答案。
表面语法说是 OR。语用结构说是 AND。模型在框架步骤中选择了错误的操作符,然后在错误的分支上进行局部连贯的推理。
每个洗车类别的失败都具有这种模式。并不是模型缺乏常识。它们在问题需要合取时选择了析取。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论