Cua, controlador de uso de computadora en segundo plano de macOS de código abierto: ingeniería inversa del marco privado de Apple, el agente controla la aplicación sin robar el cursor

robot
Generación de resúmenes en curso
Noticias de AIMPACT, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, el proyecto de infraestructura de uso de computadora de código abierto Cua lanzó cua-driver, un controlador nativo de macOS que permite a cualquier agente controlar aplicaciones de Mac en segundo plano.
Cuando el agente hace clic, escribe o toma capturas de pantalla, el cursor del usuario no se mueve, el foco no cambia y macOS no cambia de escritorio a través de Spaces.
La tecnología central proviene de la ingeniería inversa del marco privado de Apple SkyLight. Los eventos sintéticos normales a través de CGEventPost en el flujo de eventos HID mueven el cursor; \CGEvent.postToPid\ puede enviarse de forma dirigida, pero el proceso de renderizado de Chromium lo filtra.
cua-driver utiliza SLEventPostToPid de SkyLight para enviar eventos a través del canal de confianza de WindowServer, evitando HID, para que Chromium también pueda recibirlos.
La activación de ventanas sigue el enfoque del administrador de ventanas yabai: usa SLPSPostEventRecordTo para alternar solo el estado de activación de AppKit de la aplicación objetivo sin elevar el nivel de la ventana, evitando que Spaces lo siga.
Para aplicaciones Electron (Slack, VS Code, Discord, etc.), utiliza el no documentado _AXObserverAddNotificationAndCheckRemote para mantener actualizado el árbol de accesibilidad cuando la ventana está oculta.
cua-driver ofrece tres modos de captura: el modo ax devuelve solo el árbol de accesibilidad, sin necesidad de permisos de grabación de pantalla; el modo vision devuelve solo la captura de pantalla; el modo som (predeterminado) devuelve ambos, y el agente puede hacer clic mediante índice de elemento o coordenadas de píxel.
El controlador admite el protocolo MCP, puede conectarse a clientes como Claude Code, Cursor, etc., y también se puede invocar mediante línea de comandos.
Dos limitaciones conocidas: el clic derecho en contenido web de Chromium no funciona, y las aplicaciones tipo Canvas (Blender, Unity, motores de juegos) aún requieren activación temporal en primer plano.
Después de que OpenAI adquiriera el equipo anterior de Apple Shortcuts, Sky, Codex fue el primero en lanzar la función de uso de computadora en segundo plano, pero no es de código abierto.
Francesco Bonacci de Cua dijo que el controlador de uso de computadora en segundo plano debería ser una infraestructura universal, no una función exclusiva de un solo producto.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado