Prime Intellect開源可自我進化智能體環境:讓AI「左右互搏」生成逾8000個測試工具

AIMPACT 消息,5 月 19 日(UTC+8),據 動察 Beating 監測,Prime Intellect 宣布開源智能體訓練環境 general-agent,這是一個可自我進化的完全合成環境。此次發布的核心是將任務生成設定為一場雙玩家博弈:由合成器和求解器交替對抗,目前已自動構建出包含 4504 個任務、逾 8000 個獨特工具的大型狀態數據庫。 該框架從簡單的種子任務起步,通過條件約束、噪音指令、跨實體耦合等 9 種策略,將任務切分為 t0 到 t4 五個難度階梯。合成器負責設計帶有數據庫、交互工具和驗證函數的任務,求解器則負責嘗試通關。只有通過率落在特定難度區間的任務才會被保留,最難層級會作為下一波進化的種子。 官方實測顯示,僅用該環境合成的 4400 余條軌跡對 30B 參數模型進行微調,就在 BFCL 基準測試中將工具調用準確率從 18.9% 提升至 52.3%。 這種機制讓模型擺脫了對人工標註靜態數據集的依賴。通過模型間的直接博弈,系統能夠源源不斷地自動生成難度可控、帶有語義驗證的訓練語料。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆