Cua, driver de uso de computador em segundo plano para macOS de código aberto: engenharia reversa de frameworks privados da Apple, o agente controla aplicativos sem roubar o cursor.

robot
Geração do resumo em andamento
AIMPACT消息,4月24日(UTC+8),据动察Beating监测,开源computer-use基础设施项目Cua发布cua-driver,一个macOS原生驱动,让任意agent在后台操控Mac应用。
Quando o agente clica, digita ou tira screenshots, o cursor do usuário não se move, o foco não muda e o macOS não alterna para áreas de trabalho entre Spaces.
A tecnologia central vem da engenharia reversa do framework proprietário da Apple, SkyLight.
Eventos sintéticos normais através de CGEventPost percorrendo o fluxo de eventos HID movem o cursor; \CGEvent.postToPid\ pode enviar direcionado, mas o processo de renderização do Chromium o filtra.
O cua-driver usa SLEventPostToPid do SkyLight para enviar eventos através do canal de confiança do WindowServer, contornando o HID, e o Chromium também pode receber.
A ativação de janelas segue a abordagem do gerenciador de janelas yabai: usar SLPSPostEventRecordTo apenas alterna o estado de ativação do AppKit do aplicativo alvo sem elevar o nível da janela, evitando acionar o acompanhamento de Spaces.
Para aplicativos Electron (Slack, VS Code, Discord, etc.), usa o não documentado _AXObserverAddNotificationAndCheckRemote para manter a árvore de acessibilidade atualizada mesmo quando a janela está obstruída.
O cua-driver oferece três modos de captura: modo ax retorna apenas a árvore de acessibilidade, sem necessidade de permissão de gravação de tela; modo vision retorna apenas screenshots; modo som (padrão) retorna ambos, e o agente pode clicar por índice de elemento ou coordenadas de pixel.
O driver suporta o protocolo MCP, pode ser integrado a clientes como Claude Code, Cursor, etc., e também pode ser chamado via linha de comando.
Duas limitações conhecidas: cliques com botão direito em conteúdo da web do Chromium não funcionam, e aplicativos do tipo Canvas (Blender, Unity, motores de jogos) ainda precisam de ativação temporária em primeiro plano.
Após a OpenAI adquirir a equipe Sky, antiga da Apple Shortcuts, o Codex foi o primeiro a lançar a funcionalidade de computer-use em segundo plano, mas não a tornou open source.
Francesco Bonacci, da Cua, disse que o driver de computer-use em segundo plano deve ser uma infraestrutura universal e não uma funcionalidade exclusiva de um único produto. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado