Cua, o driver open-source de computer-use em segundo plano no macOS: engenharia reversa de frameworks privados da Apple, o agente controla aplicações sem roubar o cursor.

robot
Geração de resumo em curso
Notícias AIMPACT, 24 de abril (UTC+8), de acordo com a monitorização do Beating, o projeto de infraestrutura open-source de computer-use Cua lançou o cua-driver, um driver nativo do macOS que permite que qualquer agente controle aplicações Mac em segundo plano. Quando o agente clica, escreve ou tira screenshots, o cursor do utilizador não se move, o foco não muda, e o macOS não muda de desktop entre Spaces. A tecnologia central vem de engenharia reversa do framework privado da Apple, SkyLight. Eventos sintéticos normais através do CGEventPost no fluxo de eventos HID movem o cursor; \CGEvent.postToPid\ pode enviar direcionadamente, mas o processo de renderização do Chromium filtra. O cua-driver usa o SLEventPostToPid do SkyLight para enviar eventos através do canal de confiança do WindowServer, contornando o HID, e o Chromium também pode receber. A ativação de janelas segue a abordagem do gestor de janelas yabai: usando o SLPSPostEventRecordTo para apenas alternar o estado de ativação do AppKit da aplicação alvo sem elevar o nível da janela, evitando que o Spaces acompanhe. Para aplicações Electron (Slack, VS Code, Discord, etc.), usa o não documentado _AXObserverAddNotificationAndCheckRemote para manter a árvore de acessibilidade atualizada mesmo quando a janela está oculta. O cua-driver oferece três modos de captura: modo ax: retorna apenas a árvore de acessibilidade, sem necessidade de permissão de gravação de ecrã; modo vision: retorna apenas screenshots; modo som (padrão): retorna ambos, e o agente pode clicar por índice de elemento ou coordenadas de pixel. O driver suporta o protocolo MCP, pode ser integrado com clientes como Claude Code, Cursor, etc., e também pode ser chamado pela linha de comando. Duas limitações conhecidas: o clique direito em conteúdo de páginas Chromium não funciona, aplicações do tipo Canvas (Blender, Unity, motores de jogo) ainda precisam de ativação temporária em primeiro plano. Depois que a OpenAI adquiriu a Sky, antiga equipa do Apple Shortcuts, o Codex foi o primeiro a lançar a funcionalidade de computer-use em segundo plano, mas não o tornou open-source. Francesco Bonacci, da Cua, disse que o driver de computer-use em segundo plano deve ser uma infraestrutura universal, não uma funcionalidade exclusiva de um único produto. (Fonte: Beating)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado