Cua с открытым исходным кодом драйвер для компьютерного использования в фоновом режиме macOS: обратная разработка приватного фреймворка Apple, агент управляет приложениями, не захватывая курсор

robot
Генерация тезисов в процессе
AIMPACT сообщение, 24 апреля (UTC+8), по данным мониторинга Beating, проект с открытым исходным кодом Cua, инфраструктура computer-use, выпустил cua-driver — нативный драйвер для macOS, позволяющий любому агенту управлять Mac-приложениями в фоновом режиме. Когда агент нажимает, печатает или делает скриншот, курсор пользователя не двигается, фокус не меняется, macOS не переключает рабочие столы между Spaces. Ключевая технология основана на обратной разработке частного фреймворка Apple SkyLight. Обычные синтезированные события через CGEventPost по потоку HID перемещают курсор; \CGEvent.postToPid\ может отправлять направленно, но рендер-процесс Chromium его фильтрует. cua-driver использует SLEventPostToPid от SkyLight для отправки событий через доверенный канал WindowServer, минуя HID, и Chromium также может их принимать. Активация окон заимствована из оконного менеджера yabai: с помощью SLPSPostEventRecordTo переключается только состояние активации AppKit целевого приложения без поднятия уровня окна, чтобы избежать следования Spaces. Для Electron-приложений (Slack, VS Code, Discord и др.) используется недокументированная _AXObserverAddNotificationAndCheckRemote, чтобы дерево доступности оставалось обновлённым, даже когда окно перекрыто. cua-driver предлагает три режима захвата: ax-режим возвращает только дерево доступности, не требуя разрешения на запись экрана; vision-режим возвращает только скриншот; som-режим (по умолчанию) возвращает и то, и другое — агент может нажимать как по индексу элемента, так и по пиксельным координатам. Драйвер поддерживает протокол MCP, может подключаться к Claude Code, Cursor и другим клиентам, а также вызываться через командную строку. Два известных ограничения: правая кнопка мыши на веб-содержимом Chromium не работает, приложения на основе Canvas (Blender, Unity, игровые движки) всё ещё требуют кратковременной активации на переднем плане. После того как OpenAI приобрела Sky, команду Apple Shortcuts, Codex первой выпустила функцию фонового computer-use, но не открыла исходный код. Франческо Боначчи из Cua заявил, что драйвер фонового computer-use должен быть универсальной инфраструктурой, а не эксклюзивной функцией одного продукта. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено