Cua mã nguồn mở driver computer-use nền macOS: đảo ngược framework riêng của Apple, agent điều khiển ứng dụng mà không chiếm con trỏ

robot
Đang tạo bản tóm tắt
AIMPACT tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, dự án cơ sở hạ tầng computer-use mã nguồn mở Cua đã phát hành cua-driver, một trình điều khiển gốc macOS, cho phép bất kỳ agent nào điều khiển ứng dụng Mac ở chế độ nền. Khi agent nhấp chuột, gõ phím, chụp màn hình, con trỏ của người dùng không di chuyển, tiêu điểm không thay đổi, macOS không chuyển đổi màn hình qua Spaces. Công nghệ cốt lõi đến từ việc reverse engineering khung riêng tư SkyLight của Apple. Các sự kiện tổng hợp thông thường qua CGEventPost đi theo luồng sự kiện HID sẽ di chuyển con trỏ; \CGEvent.postToPid\ có thể gửi trực tiếp nhưng tiến trình kết xuất Chromium sẽ lọc bỏ. cua-driver sử dụng SLEventPostToPid của SkyLight để gửi sự kiện qua kênh tin cậy WindowServer, bỏ qua HID, ngay cả Chromium cũng có thể nhận được. Kích hoạt cửa sổ thì tham khảo cách làm của trình quản lý cửa sổ yabai: dùng SLPSPostEventRecordTo chỉ lật trạng thái kích hoạt AppKit của ứng dụng đích mà không nâng cấp cửa sổ, tránh kích hoạt Spaces theo dõi. Đối với ứng dụng Electron (Slack, VS Code, Discord, v.v.), sử dụng _AXObserverAddNotificationAndCheckRemote chưa được công bố để cây khả năng truy cập vẫn được cập nhật khi cửa sổ bị che khuất. cua-driver cung cấp ba chế độ chụp: chế độ ax chỉ trả về cây khả năng truy cập, không cần quyền ghi màn hình; chế độ vision chỉ trả về ảnh chụp màn hình; chế độ som (mặc định) trả về cả hai, agent có thể nhấp qua chỉ mục phần tử hoặc tọa độ pixel. Trình điều khiển hỗ trợ giao thức MCP, có thể kết nối với Claude Code, Cursor và các ứng dụng khách khác, cũng có thể gọi qua dòng lệnh. Hai hạn chế đã biết: nhấp chuột phải vào nội dung web Chromium không hoạt động, ứng dụng Canvas (Blender, Unity, game engine) vẫn cần kích hoạt front-end tạm thời. Sau khi OpenAI mua lại đội Sky của Apple Shortcuts, Codex là người đầu tiên ra mắt tính năng computer-use nền nhưng không mã nguồn mở. Francesco Bonacci của Cua cho biết, trình điều khiển computer-use nền nên là cơ sở hạ tầng chung chứ không phải tính năng độc quyền của một sản phẩm duy nhất. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim