Cua open source macOS background computer-use driver : rétro-ingénierie du framework privé Apple, l'agent contrôle l'application sans prendre le curseur

robot
Création du résumé en cours
Message AIMPACT, 24 avril (UTC+8), selon la surveillance de Dongcha Beating, le projet d'infrastructure open-source computer-use Cua a publié cua-driver, un pilote natif macOS qui permet à tout agent de contrôler les applications Mac en arrière-plan. Lorsque l'agent clique, tape ou prend des captures d'écran, le curseur de l'utilisateur ne bouge pas, le focus ne change pas, et macOS ne change pas de bureau entre les Spaces. La technologie de base provient du reverse engineering du framework propriétaire d'Apple, SkyLight. Les événements synthétiques classiques via CGEventPost dans le flux HID déplacent le curseur ; \CGEvent.postToPid\ peut envoyer de manière ciblée mais le processus de rendu Chromium le filtre. cua-driver utilise SLEventPostToPid de SkyLight via le canal de confiance WindowServer pour envoyer des événements, contournant HID, Chromium peut également les recevoir. L'activation de fenêtre s'inspire du gestionnaire de fenêtres yabai : utiliser SLPSPostEventRecordTo pour basculer uniquement l'état d'activation AppKit de l'application cible sans élever le niveau de la fenêtre, évitant ainsi le suivi des Spaces. Pour les applications Electron (Slack, VS Code, Discord, etc.), utilisez _AXObserverAddNotificationAndCheckRemote non documenté pour que l'arbre d'accessibilité reste mis à jour même lorsque la fenêtre est masquée. cua-driver propose trois modes de capture : le mode ax ne renvoie que l'arbre d'accessibilité, sans autorisation d'enregistrement d'écran ; le mode vision ne renvoie que la capture d'écran ; le mode som (par défaut) renvoie les deux, l'agent peut cliquer soit par index d'élément, soit par coordonnées de pixels. Le pilote prend en charge le protocole MCP, peut être intégré à des clients comme Claude Code, Cursor, etc., et peut également être appelé via la ligne de commande. Deux limitations connues : le clic droit sur le contenu web Chromium ne fonctionne pas, les applications de type Canvas (Blender, Unity, moteurs de jeu) nécessitent encore une activation temporaire au premier plan. Après l'acquisition par OpenAI de l'équipe Sky (anciennement Apple Shortcuts), Codex a été le premier à proposer une fonctionnalité computer-use en arrière-plan mais sans l'ouvrir en open source. Francesco Bonacci de Cua a déclaré que le pilote computer-use en arrière-plan devrait être une infrastructure universelle et non une fonctionnalité exclusive d'un seul produit. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé