AIMPACT ニュース、4月24日(UTC+8)、動察 Beating の監視によると、オープンソースのcomputer-useインフラプロジェクトCuaがcua-driverをリリース。これはmacOSネイティブドライバで、任意のエージェントがバックグラウンドでMacアプリを操作できるようにする。エージェントがクリック、タイピング、スクリーンショットを取るとき、ユーザーのカーソルは動かず、フォーカスは変わらず、macOSはSpacesをまたいでデスクトップを切り替えない。
中核技術はAppleのプライベートフレームワークSkyLightのリバースエンジニアリングによるもの。通常の合成イベントはCGEventPostでHIDイベントストリームを経由するとカーソルが動くが、\CGEvent.postToPid\ でターゲットを指定して送信できるものの、Chromiumのレンダリングプロセスがフィルタリングする。cua-driverはSkyLightのSLEventPostToPidを使い、WindowServerの信頼チャネル経由でイベントを送信し、HIDを迂回するため、Chromiumでも受信可能。ウィンドウのアクティブ化はウィンドウマネージャyabaiの手法を参考に、SLPSPostEventRecordToを使ってターゲットアプリのAppKitアクティブ状態のみを反転させ、ウィンドウのレイヤーを上げず、Spacesの追従を回避する。Electronアプリ(Slack、VS Code、Discordなど)については、未公開の_AXObserverAddNotificationAndCheckRemoteを使い、ウィンドウが隠れていてもアクセシビリティツリーが更新され続けるようにする。
cua-driverは3つのキャプチャモードを提供:axモードはアクセシビリティツリーのみを返し、画面録画の権限は不要;visionモードはスクリーンショットのみを返す;somモード(デフォルト)は両方を返し、エージェントは要素インデックスまたはピクセル座標の2通りの方法でクリック可能。ドライバはMCPプロトコルに対応し、Claude Code、Cursorなどのクライアントに接続可能で、コマンドラインからも呼び出せる。既知の制限が2つ:ChromiumのWebコンテンツでの右クリックが機能しないこと、Canvas系アプリ(Blender、Unity、ゲームエンジン)では一時的に前面に持ってくる必要があること。
OpenAIが元Apple ShortcutsチームのSkyを買収した後、Codexが初めてバックグラウンドcomputer-use機能をリリースしたが、オープンソースではない。CuaのFrancesco Bonacci氏は、バックグラウンドcomputer-useドライバは単一製品の専用機能ではなく、汎用インフラであるべきだと述べている。
(出典:BlockBeats)
4.5M 人気度
1.04M 人気度
68.04K 人気度
161.32K 人気度
152.56M 人気度
CuaはmacOS上で動作するオープンソースのコンピューター使用ドライバー:Appleのプライベートフレームワークをリバースエンジニアリングし、エージェントがアプリケーションを操作してもカーソルを奪わない。
AIMPACT ニュース、4月24日(UTC+8)、動察 Beating の監視によると、オープンソースのcomputer-useインフラプロジェクトCuaがcua-driverをリリース。これはmacOSネイティブドライバで、任意のエージェントがバックグラウンドでMacアプリを操作できるようにする。エージェントがクリック、タイピング、スクリーンショットを取るとき、ユーザーのカーソルは動かず、フォーカスは変わらず、macOSはSpacesをまたいでデスクトップを切り替えない。
中核技術はAppleのプライベートフレームワークSkyLightのリバースエンジニアリングによるもの。通常の合成イベントはCGEventPostでHIDイベントストリームを経由するとカーソルが動くが、\CGEvent.postToPid\ でターゲットを指定して送信できるものの、Chromiumのレンダリングプロセスがフィルタリングする。cua-driverはSkyLightのSLEventPostToPidを使い、WindowServerの信頼チャネル経由でイベントを送信し、HIDを迂回するため、Chromiumでも受信可能。ウィンドウのアクティブ化はウィンドウマネージャyabaiの手法を参考に、SLPSPostEventRecordToを使ってターゲットアプリのAppKitアクティブ状態のみを反転させ、ウィンドウのレイヤーを上げず、Spacesの追従を回避する。Electronアプリ(Slack、VS Code、Discordなど)については、未公開の_AXObserverAddNotificationAndCheckRemoteを使い、ウィンドウが隠れていてもアクセシビリティツリーが更新され続けるようにする。
cua-driverは3つのキャプチャモードを提供:axモードはアクセシビリティツリーのみを返し、画面録画の権限は不要;visionモードはスクリーンショットのみを返す;somモード(デフォルト)は両方を返し、エージェントは要素インデックスまたはピクセル座標の2通りの方法でクリック可能。ドライバはMCPプロトコルに対応し、Claude Code、Cursorなどのクライアントに接続可能で、コマンドラインからも呼び出せる。既知の制限が2つ:ChromiumのWebコンテンツでの右クリックが機能しないこと、Canvas系アプリ(Blender、Unity、ゲームエンジン)では一時的に前面に持ってくる必要があること。
OpenAIが元Apple ShortcutsチームのSkyを買収した後、Codexが初めてバックグラウンドcomputer-use機能をリリースしたが、オープンソースではない。CuaのFrancesco Bonacci氏は、バックグラウンドcomputer-useドライバは単一製品の専用機能ではなく、汎用インフラであるべきだと述べている。
(出典:BlockBeats)