Cua, un controlador de uso de computadora en segundo plano de macOS de código abierto: ingeniería inversa del marco privado de Apple, el agente controla la aplicación sin tomar el cursor.

robot
Generación de resúmenes en curso
Mensaje de AIMPACT, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, el proyecto de infraestructura de computer-use de código abierto Cua lanzó cua-driver, un controlador nativo de macOS que permite a cualquier agente controlar aplicaciones de Mac en segundo plano. Cuando el agente hace clic, escribe o toma capturas de pantalla, el cursor del usuario no se mueve, el foco no cambia y macOS no cambia de escritorio a través de Spaces. La tecnología central proviene de la ingeniería inversa del marco privado SkyLight de Apple. Los eventos sintéticos convencionales mueven el cursor a través del flujo de eventos HID mediante CGEventPost; \CGEvent.postToPid\ puede enviar dirigidamente pero el proceso de renderizado de Chromium lo filtra. cua-driver utiliza SLEventPostToPid de SkyLight para enviar eventos a través del canal de confianza WindowServer, evitando HID, y Chromium también puede recibirlos. La activación de ventanas se basa en el enfoque del administrador de ventanas yabai: usa SLPSPostEventRecordTo para alternar solo el estado de activación de AppKit de la aplicación objetivo sin elevar el nivel de la ventana, evitando activar el seguimiento de Spaces. Para aplicaciones Electron (Slack, VS Code, Discord, etc.), utiliza _AXObserverAddNotificationAndCheckRemote no documentado para mantener actualizado el árbol de accesibilidad cuando la ventana está oculta. cua-driver ofrece tres modos de captura: el modo ax solo devuelve el árbol de accesibilidad, no necesita permiso de grabación de pantalla; el modo vision solo devuelve capturas de pantalla; el modo som (predeterminado) devuelve ambos, y el agente puede hacer clic mediante índice de elemento o coordenadas de píxel. El controlador admite el protocolo MCP, se puede conectar a clientes como Claude Code, Cursor, y también se puede invocar mediante línea de comandos. Dos limitaciones conocidas: el clic derecho en contenido web de Chromium no funciona, las aplicaciones tipo Canvas (Blender, Unity, motores de juego) aún requieren activación frontal breve. Después de que OpenAI adquirió el equipo Sky de Apple Shortcuts, Codex lanzó primero la función de computer-use en segundo plano pero no es de código abierto. Francesco Bonacci de Cua dijo que el controlador de computer-use en segundo plano debería ser una infraestructura universal y no una función exclusiva de un solo producto. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado