Cua с открытым исходным кодом для macOS: драйвер фонового использования компьютера — реверс-инжиниринг частного фреймворка Apple, агент управляет приложениями без захвата курсора

robot
Генерация тезисов в процессе
AIMPACT сообщение, 24 апреля (UTC+8), по данным мониторинга Beating, проект с открытым исходным кодом для компьютерной инфраструктуры Cua выпустил cua-driver — нативный драйвер для macOS, позволяющий любому агенту управлять приложениями Mac в фоновом режиме. Когда агент нажимает, печатает или делает скриншот, курсор пользователя не двигается, фокус не меняется, macOS не переключает рабочие столы между Spaces. Основная технология основана на реверс-инжиниринге частного фреймворка Apple SkyLight. Обычные синтетические события через CGEventPost по потоку HID перемещают курсор; \CGEvent.postToPid\ может отправлять направленно, но рендер-процесс Chromium фильтрует их. cua-driver использует SLEventPostToPid из SkyLight для отправки событий через доверенный канал WindowServer, минуя HID, и Chromium также может их получать. Активация окна заимствована из менеджера окон yabai: с помощью SLPSPostEventRecordTo переключается только состояние активации AppKit целевого приложения без поднятия уровня окна, чтобы избежать переключения Spaces. Для приложений Electron (Slack, VS Code, Discord и т.д.) используется недокументированный _AXObserverAddNotificationAndCheckRemote, чтобы дерево доступности оставалось обновленным, даже когда окно закрыто. cua-driver предлагает три режима захвата: режим ax возвращает только дерево доступности, не требуя разрешения на запись экрана; режим vision возвращает только скриншот; режим som (по умолчанию) возвращает оба, и агент может нажимать как по индексу элемента, так и по пиксельным координатам. Драйвер поддерживает протокол MCP, может подключаться к клиентам вроде Claude Code, Cursor, а также вызываться через командную строку. Два известных ограничения: не работает клик правой кнопкой по содержимому веб-страниц Chromium; приложения на Canvas (Blender, Unity, игровые движки) требуют временной активации на переднем плане. После того как OpenAI приобрела команду Sky (создатели Apple Shortcuts), Codex первым представил фоновое компьютерное использование, но не сделал его открытым. Франческо Боначчи из Cua заявил, что драйвер для фонового компьютерного использования должен быть универсальной инфраструктурой, а не эксклюзивной функцией одного продукта. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено