Cua est un pilote open-source pour macOS permettant l'utilisation d'un ordinateur en arrière-plan : en rétro-ingénierie du framework propriétaire d'Apple, l'agent contrôle les applications sans prendre le contrôle du curseur.

robot
Création du résumé en cours
AIMPACT News, 24 avril (UTC+8), selon la surveillance de Beating, le projet d'infrastructure open source computer-use Cua a publié cua-driver, un pilote natif macOS qui permet à n'importe quel agent de contrôler les applications Mac en arrière-plan. Lorsque l'agent clique, tape ou prend une capture d'écran, le curseur de l'utilisateur ne bouge pas, le focus ne change pas, et macOS ne change pas de bureau entre les Spaces. La technologie principale provient du rétro-ingénierie du framework privé SkyLight d'Apple. Les événements synthétiques classiques passent par CGEventPost via le flux d'événements HID et déplacent le curseur ; \CGEvent.postToPid\ peut envoyer de manière ciblée mais le processus de rendu Chromium les filtre. cua-driver utilise SLEventPostToPid de SkyLight via le canal de confiance WindowServer pour envoyer des événements, contournant HID, et Chromium peut également les recevoir. L'activation des fenêtres s'inspire du gestionnaire de fenêtres yabai : en utilisant SLPSPostEventRecordTo pour basculer uniquement l'état d'activation AppKit de l'application cible sans élever le niveau de la fenêtre, évitant ainsi de déclencher le suivi des Spaces. Pour les applications Electron (Slack, VS Code, Discord, etc.), utilise l'API non documentée _AXObserverAddNotificationAndCheckRemote pour que l'arbre d'accessibilité reste mis à jour même lorsque la fenêtre est masquée. cua-driver propose trois modes de capture : le mode ax ne renvoie que l'arbre d'accessibilité, sans nécessiter d'autorisation d'enregistrement d'écran ; le mode vision ne renvoie que la capture d'écran ; le mode som (par défaut) renvoie les deux, et l'agent peut cliquer soit par index d'élément, soit par coordonnées de pixels. Le pilote prend en charge le protocole MCP, peut être intégré à des clients comme Claude Code, Cursor, et peut également être invoqué via la ligne de commande. Deux limitations connues : le clic droit sur le contenu web Chromium ne fonctionne pas, les applications Canvas (Blender, Unity, moteurs de jeu) nécessitent encore une brève activation au premier plan. Après qu'OpenAI a acquis Sky, l'ancienne équipe Apple Shortcuts, Codex a été le premier à proposer une fonctionnalité computer-use en arrière-plan mais ne l'a pas open sourcé. Francesco Bonacci de Cua déclare que le pilote computer-use en arrière-plan devrait être une infrastructure universelle plutôt qu'une fonctionnalité exclusive d'un seul produit. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé