Cua sumber terbuka macOS latar belakang pengemudi computer-use: merekayasa balik kerangka kerja privat Apple, agen mengontrol aplikasi tanpa merebut kursor

robot
Pembuatan abstrak sedang berlangsung
AIMPACT berita, 24 April (UTC+8), menurut pemantauan Dongcha Beating, proyek infrastruktur computer-use sumber terbuka Cua merilis cua-driver, sebuah driver asli macOS, yang memungkinkan agen apa pun mengontrol aplikasi Mac di latar belakang.
Saat agen mengklik, mengetik, atau mengambil tangkapan layar, kursor pengguna tidak bergerak, fokus tidak berubah, dan macOS tidak akan beralih desktop antar Spaces.
Teknologi inti berasal dari rekayasa balik kerangka kerja privat Apple SkyLight. Peristiwa sintetis biasa melalui CGEventPost menggunakan aliran peristiwa HID akan memindahkan kursor; \CGEvent.postToPid\ dapat dikirim secara terarah tetapi proses rendering Chromium akan menyaringnya.
cua-driver menggunakan SLEventPostToPid dari SkyLight untuk mengirim peristiwa melalui saluran tepercaya WindowServer, melewati HID, dan Chromium juga dapat menerimanya.
Aktivasi jendela mengambil praktik manajer jendela yabai: menggunakan SLPSPostEventRecordTo untuk hanya membalikkan status aktivasi AppKit aplikasi target tanpa menaikkan tingkat jendela, menghindari pemicu pengikut Spaces.
Untuk aplikasi Electron (Slack, VS Code, Discord, dll.), menggunakan _AXObserverAddNotificationAndCheckRemote yang tidak dipublikasikan untuk menjaga pohon aksesibilitas tetap diperbarui saat jendela tertutup.
cua-driver menyediakan tiga mode tangkapan: mode ax hanya mengembalikan pohon aksesibilitas, tanpa izin perekaman layar; mode vision hanya mengembalikan tangkapan layar; mode som (default) mengembalikan keduanya, agen dapat mengklik melalui indeks elemen atau koordinat piksel.
Driver mendukung protokol MCP, dapat terhubung ke klien seperti Claude Code, Cursor, dan juga dapat dipanggil melalui baris perintah.
Dua batasan yang diketahui: klik kanan pada konten web Chromium tidak berfungsi, aplikasi tipe Canvas (Blender, Unity, mesin game) masih memerlukan aktivasi latar depan singkat.
Setelah OpenAI mengakuisisi tim Sky dari Apple Shortcuts, Codex pertama kali meluncurkan fitur computer-use latar belakang tetapi tidak bersumber terbuka.
Francesco Bonacci dari Cua mengatakan bahwa driver computer-use latar belakang harus menjadi infrastruktur umum, bukan fungsi eksklusif untuk satu produk.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan