我發布了 ConstraintGate 的第一個公開版本。


核心思想:
大多數代理失敗不是推理失敗。
它們是權威失敗。
模型確實執行了它未被授權做的事情。
因此我建立了代理權威路由器:一個評估/打分框架,用來檢查代理是否做了正確的工作,而不僅僅是答案聽起來是否合理。
它區分:
- 用戶授權的內容
- 代理應執行的原語
- 禁止的原語
- 回應是否越界
v0.8 現在具有:
- 人工裁定的行為證據
- 與凍結的人類標記集的確定性打分平價
- 在裁定下的行為通過率為 38/39
- 現場級打分平價為 195/195
- h019 被解決為無效的固定裝置工件
- 無新自動化基準測試通過的聲稱
重點不是“更好的提示”。
重點是衡量代理是否在授權範圍內工作。
約束的精確度勝過約束的表演。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆