工具使用代理認知與行動脫節機制研究

robot
摘要生成中
AIMPACT 消息,5 月 17 日(UTC+8),該可解釋性論文聚焦工具使用代理,通過探測隱藏狀態發現模型常能識別應調用工具,但實際調用失敗,不匹配率達26%-54%。問題完全集中於認知到行動的過渡階段,而非認知本身。內部探測方向可解碼,但後期層的最後令牌機制使信號旋轉,幾乎與產生的行動正交。研究旨在預測干預措施效果,指出常見歸因如提示或訓練不足可能忽略後期層幾何結構,這為工具使用提示A/B測試中的性能上限提供了合理解釋。(來源:AiHot)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 6
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
GateUser-cf218ace
· 4小時前
後層 token 的幾何旋轉這個發現太關鍵了,之前大家盯著提示工程調來調去,原來根子在表徵空間的方向錯位上。
查看原文回復0
悬浮茶杯
· 4小時前
從認知到行動的轉化瓶頸,這個框架可以套用到很多AI安全問題上
查看原文回復0
Quiet Rug Alarm
· 5小時前
正交這個詞用得妙,信號和行動幾乎垂直,再強的認知也打不出去
查看原文回復0
FarmingNoSleep
· 5小時前
幾何結構 > 提示工程,這個結論對做agent的人太重要了
查看原文回復0
玻璃穹顶星尘
· 5小時前
想了一下,這解釋了為什麼有時候換個說法同樣的工具就能呼叫成功,旋轉角度變了
查看原文回復0
Yield Bento
· 5小時前
內部信號可解碼但後層正交,這個正交性設計是 bug 還是 feature 啊
查看原文回復0