Cua driver open-source para macOS para uso computacional em segundo plano: engenharia reversa de frameworks privados da Apple, agente controla aplicativos sem roubar o cursor

robot
Geração do resumo em andamento
AIMPACT notícia, 24 de abril (UTC+8), de acordo com monitoramento da Dongcha Beating, o projeto de infraestrutura open-source computer-use Cua lançou o cua-driver, um driver nativo para macOS que permite que qualquer agente controle aplicativos Mac em segundo plano. Quando o agente clica, digita ou captura tela, o cursor do usuário não se move, o foco não muda e o macOS não troca de área de trabalho entre Spaces. A tecnologia central vem da engenharia reversa do framework proprietário da Apple, SkyLight. Eventos sintéticos convencionais através de CGEventPost pelo fluxo HID movem o cursor; \CGEvent.postToPid\ pode enviar direcionado, mas o processo de renderização do Chromium filtra. O cua-driver usa SLEventPostToPid do SkyLight para enviar eventos pelo canal de confiança do WindowServer, contornando o HID, permitindo que o Chromium também receba. A ativação de janelas empresta a abordagem do gerenciador de janelas yabai: usa SLPSPostEventRecordTo para inverter apenas o estado de ativação AppKit do aplicativo alvo sem elevar o nível da janela, evitando ativar o acompanhamento de Spaces. Para aplicativos Electron (Slack, VS Code, Discord, etc.), usa o não documentado _AXObserverAddNotificationAndCheckRemote para manter a árvore de acessibilidade atualizada mesmo quando a janela está oculta. O cua-driver oferece três modos de captura: modo ax retorna apenas a árvore de acessibilidade, sem necessidade de permissão de gravação de tela; modo vision retorna apenas captura de tela; modo som (padrão) retorna ambos, permitindo que o agente clique por índice de elemento ou coordenadas de pixel. O driver suporta o protocolo MCP, podendo ser integrado a clientes como Claude Code, Cursor, ou chamado via linha de comando. Duas limitações conhecidas: cliques com botão direito em conteúdo web do Chromium não funcionam, e aplicativos do tipo Canvas (Blender, Unity, mecanismos de jogos) ainda precisam de ativação frontal temporária. Após a OpenAI adquirir o time Sky do Apple Shortcuts, o Codex lançou primeiro a funcionalidade computer-use em segundo plano, mas não open-source. Francesco Bonacci, da Cua, afirma que o driver computer-use em segundo plano deve ser uma infraestrutura universal, não uma funcionalidade exclusiva de um único produto. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado