CuaはmacOS上で動作するオープンソースのコンピューター使用ドライバー:Appleのプライベートフレームワークをリバースエンジニアリングし、エージェントがアプリケーションを操作してもカーソルを奪わない。

robot
概要作成中

AIMPACT ニュース、4月24日(UTC+8)、動察 Beating の監視によると、オープンソースのcomputer-useインフラプロジェクトCuaがcua-driverをリリース。これはmacOSネイティブドライバで、任意のエージェントがバックグラウンドでMacアプリを操作できるようにする。エージェントがクリック、タイピング、スクリーンショットを取るとき、ユーザーのカーソルは動かず、フォーカスは変わらず、macOSはSpacesをまたいでデスクトップを切り替えない。

中核技術はAppleのプライベートフレームワークSkyLightのリバースエンジニアリングによるもの。通常の合成イベントはCGEventPostでHIDイベントストリームを経由するとカーソルが動くが、\CGEvent.postToPid\ でターゲットを指定して送信できるものの、Chromiumのレンダリングプロセスがフィルタリングする。cua-driverはSkyLightのSLEventPostToPidを使い、WindowServerの信頼チャネル経由でイベントを送信し、HIDを迂回するため、Chromiumでも受信可能。ウィンドウのアクティブ化はウィンドウマネージャyabaiの手法を参考に、SLPSPostEventRecordToを使ってターゲットアプリのAppKitアクティブ状態のみを反転させ、ウィンドウのレイヤーを上げず、Spacesの追従を回避する。Electronアプリ(Slack、VS Code、Discordなど)については、未公開の_AXObserverAddNotificationAndCheckRemoteを使い、ウィンドウが隠れていてもアクセシビリティツリーが更新され続けるようにする。

cua-driverは3つのキャプチャモードを提供:axモードはアクセシビリティツリーのみを返し、画面録画の権限は不要;visionモードはスクリーンショットのみを返す;somモード(デフォルト)は両方を返し、エージェントは要素インデックスまたはピクセル座標の2通りの方法でクリック可能。ドライバはMCPプロトコルに対応し、Claude Code、Cursorなどのクライアントに接続可能で、コマンドラインからも呼び出せる。既知の制限が2つ:ChromiumのWebコンテンツでの右クリックが機能しないこと、Canvas系アプリ(Blender、Unity、ゲームエンジン)では一時的に前面に持ってくる必要があること。

OpenAIが元Apple ShortcutsチームのSkyを買収した後、Codexが初めてバックグラウンドcomputer-use機能をリリースしたが、オープンソースではない。CuaのFrancesco Bonacci氏は、バックグラウンドcomputer-useドライバは単一製品の専用機能ではなく、汎用インフラであるべきだと述べている。

(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め