Cua開源macOS後台電腦使用驅動:逆向Apple私有框架,智能體操控應用不搶游標

robot
摘要生成中
AIMPACT 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,開源 computer-use 基礎設施專案 Cua 發佈 cua-driver,一個 macOS 原生驅動,讓任意 agent 在後台操控 Mac 應用。agent 點擊、打字、截圖時,用戶的游標不動、焦點不變、macOS 不會跨 Spaces 切換桌面。 核心技術來自對 Apple 私有框架 SkyLight 的逆向工程。常規合成事件透過 CGEventPost 走 HID 事件流會移動游標;\CGEvent.postToPid\ 能定向發送但 Chromium 渲染進程會過濾掉。cua-driver 用 SkyLight 的 SLEventPostToPid 透過 WindowServer 信任通道發送事件,繞開 HID,Chromium 也能接收。視窗啟動則借鑑視窗管理器 yabai 的做法:用 SLPSPostEventRecordTo 只翻轉目標應用的 AppKit 啟動狀態而不提升視窗層級,避免觸發 Spaces 跟隨。對 Electron 應用(Slack、VS Code、Discord 等),用未公開的 _AXObserverAddNotificationAndCheckRemote 讓可存取性樹在視窗被遮擋時仍保持更新。 cua-driver 提供三種捕獲模式:ax 模式僅回傳可存取性樹,不需要錄螢幕權限;vision 模式僅回傳截圖;som 模式(預設)同時回傳兩者,agent 可透過元素索引或像素座標兩種方式點擊。驅動支援 MCP 協定,可接入 Claude Code、Cursor 等客戶端,也可透過命令列呼叫。兩個已知限制:Chromium 網頁內容的右鍵點擊不工作,Canvas 類應用(Blender、Unity、遊戲引擎)仍需短暫前台啟動。 OpenAI 收購前 Apple Shortcuts 團隊 Sky 後,Codex 率先推出後台 computer-use 功能但未開源。Cua 的 Francesco Bonacci 稱,後台 computer-use 驅動應當是通用基礎設施而非單一產品的專屬功能。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆