Bagaimana cara menggunakan komputer dengan Codex? Tiga pintu masuk dan batasan hak akses

Judul asli: Tiga Cara Codex Dapat Menggunakan Komputer
Penulis asli: jason
Diterjemahkan: Peggy, BlockBeats

Catatan editor: Artikel ini merangkum tiga pintu masuk untuk mengoperasikan lingkungan eksternal Codex: Penggunaan Komputer, Ekstensi Chrome, dan Browser dalam aplikasi. Ketiganya tampaknya sama-sama menyelesaikan masalah "membuat Codex menggunakan komputer", tetapi masing-masing berhadapan dengan skenario tugas yang berbeda, batasan izin, dan tingkat kepercayaan.

Di antaranya, Penggunaan Komputer mencakup area terluas, dapat langsung mengoperasikan aplikasi native yang diotorisasi di macOS / Windows, pengaturan sistem, simulator iOS, bahkan menyelesaikan alur kerja lintas beberapa aplikasi. Cocok untuk proses GUI yang tidak didukung API, plugin, atau alat terstruktur, tetapi dengan harga kecepatan lebih lambat dan batasan izin yang paling luas. Ekstensi Chrome cocok untuk tugas yang bergantung pada status login, cookies, tab multi, dan identitas browser, seperti Gmail, LinkedIn, Salesforce, backend internal, atau penelitian login lintas situs. Browser dalam aplikasi lebih condong ke pengembangan dan debugging, sangat cocok untuk layanan lokal, bug visual, tata letak responsif, dan catatan desain; tidak mewarisi status login browser normal pengguna, kemampuan lebih terbatas, tetapi isolasi lebih kuat.

Inti dari artikel ini adalah, Codex tidak hanya memiliki satu cara "menggunakan komputer", tetapi yang penting adalah memilih antarmuka operasi yang paling sempit, paling aman, dan paling terstruktur sesuai tugas. Jika bisa menggunakan plugin atau MCP, jangan dulu pakai kontrol visual; jika tugas hanya terkait pengembangan web, prioritaskan penggunaan Browser dalam aplikasi; jika membutuhkan identitas dan login browser pengguna, beralih ke Chrome; hanya jika alat terstruktur tidak mencukupi dan tugas harus bergantung pada antarmuka grafis desktop, Penggunaan Komputer adalah kilometer terakhir.

Appshots bukanlah cara keempat untuk mengendalikan komputer, melainkan alat untuk "mengarahkan" konteks layar saat ini ke Codex. Ini menyelesaikan masalah input konteks, sementara Browser, Chrome, dan Penggunaan Komputer menyelesaikan masalah tindakan. Jika dilihat bersama, lapisan ini sebenarnya mengungkapkan kunci produk AI Agent: bukan memberi model izin tak terbatas, tetapi secara bertahap mempersempit izin, memperjelas batas, dan membiarkan pengguna tetap mengawasi tindakan penting.

Berikut teks aslinya:

Codex memiliki tiga cara menggunakan komputer: Penggunaan Komputer, Ekstensi Chrome, dan Browser dalam aplikasi.

Mereka memiliki tumpang tindih tertentu, yang kebetulan cukup membingungkan.

Setelah membaca artikel ini, Anda akan tahu cara menginstal dan memicu ketiganya, kapan harus digunakan dalam skenario berbeda, bagaimana Appshots dan Mode Pengembang menghubungkan keduanya, dan apa yang harus ditulis di AGENTS.md agar Codex dapat memilih antarmuka operasi yang sesuai secara otomatis.

Versi sederhana adalah:

Meskipun begitu, selama memungkinkan, lebih baik prioritaskan penggunaan plugin atau MCP. Misalnya, plugin Slack dapat melakukan pencarian thread lebih akurat daripada klik-klik di Slack; operasi yang dihasilkan plugin GitHub juga lebih mudah diperiksa daripada membiarkan Codex mengendalikan web. Kontrol visual paling cocok digunakan saat alat terstruktur mencapai batasnya.

Segala sesuatu bisa menjadi @Computer

Penggunaan Komputer adalah salah satu dari tiga antarmuka operasi yang cakupannya paling luas. Ia memungkinkan Codex melihat dan mengoperasikan antarmuka grafis di macOS dan Windows, termasuk jendela, menu, input keyboard, dan clipboard dalam aplikasi yang diotorisasi.

Biasanya, ini juga yang paling lambat. Plugin terstruktur dapat langsung memanggil API; Penggunaan Komputer perlu mengamati antarmuka, menilai tempat klik, menunggu respons aplikasi, lalu memeriksa status berikutnya. Siklus visual ini memakan waktu, tetapi juga berarti Codex dapat mengoperasikan aplikasi yang sama sekali tidak memiliki API yang tersedia.

Di macOS, lambat tidak selalu berarti mengganggu. Penggunaan Komputer dapat beroperasi di latar belakang pada aplikasi yang diotorisasi, sementara Anda tetap bisa menggunakan bagian lain dari komputer. Banyak kali, saat saya menggunakan Codex, saya membuka aplikasi tertentu, dan ternyata Codex sudah diam-diam menyelesaikan alur kerja di latar belakang.

Bergantung aplikasi yang terinstal dan diotorisasi di komputer Anda, objek operasi ini bisa meliputi Spotify, Xcode, Pengaturan Sistem, simulator iOS, bahkan Mirroring iPhone untuk mengendalikan iPhone Anda. Ia juga bisa beralih antar beberapa aplikasi, mengelola alur kerja lintas aplikasi.

Saat tugas bergantung pada hal-hal berikut, Anda bisa menggunakannya:

Aplikasi desktop native, seperti Spotify atau aplikasi keuangan;

Simulator iOS, Mirroring iPhone, atau proses lain yang hanya bisa dilakukan melalui antarmuka grafis;

Pengaturan sistem atau aplikasi;

Sumber data tanpa plugin atau API;

Alur kerja yang melibatkan beralih antar beberapa aplikasi;

Langkah terakhir yang hilang dalam integrasi terstruktur tertentu.

Cara instalasi: buka Pengaturan Codex > Penggunaan Komputer, lalu klik Install.

Cara memicu: sebutkan @Computer, atau secara eksplisit minta Codex menggunakan Penggunaan Komputer. Seiring peningkatan kemampuan model, di masa depan ia juga akan memanggilnya secara otomatis saat diperlukan.

Contoh percobaan:

Favorit saya, misalnya, berawal dari paket yang dicuri. Amazon memberi tahu saya bahwa saya harus menunggu sekitar 25 menit untuk menghubungi layanan pelanggan. Saya serahkan sebuah thread Codex ke Penggunaan Komputer, biarkan ia memeriksa jendela chat setiap lima menit, dan setelah petugas muncul, ubah menjadi setiap menit, serta berusaha mendapatkan pengembalian dana. Setelah saya mandi, pengembalian dana sudah selesai.

Gunakan @Computer untuk membuka Spotify, cari playlist Discover Weekly saya, dan mulai putar. Jangan ubah pengaturan akun atau langganan saya. Gunakan @Computer untuk membuka Mirroring iPhone, reproduksi bug onboarding di aplikasi iOS, dan ambil screenshot dari kondisi gagal. Perbaiki jalur kode terkecil yang relevan, lalu jalankan alur yang sama lagi.

Saya juga menggunakan Penggunaan Komputer sebagai "kilometer terakhir" dalam alur kerja terstruktur. Dalam satu rilis video, Codex bisa membaca feedback dari Slack, mengubah kode, dan merender video baru, tetapi integrasi Slack dalam thread tersebut tidak bisa mengunggah file. Maka, Penggunaan Komputer klik Add file, menambahkan langkah yang hilang ini.

Ini juga yang paling luas batas kepercayaannya. Berikan satu aplikasi atau proses yang jelas padanya dalam satu waktu. Jika aplikasi sensitif bukan bagian dari tugas, tetap matikan; periksa izin pop-up secara seksama; saat menyangkut keuangan, akun, pembayaran, bukti, privasi, dan perubahan keamanan sistem, sebaiknya ada pengawasan langsung.

Menggunakan @Chrome untuk mengelola multi-tab dan status login

Ekstensi Chrome dalam Codex memungkinkan Codex mengakses status login Chrome yang sudah Anda lakukan. Jika tugas bergantung pada akun, cookies, profil browser, atau tab yang sudah dibuka dan terautentikasi, maka harus pakai ini.

Antarmuka ini cocok untuk pekerjaan di alat berikut:

Gmail atau LinkedIn;

Salesforce atau backend layanan pelanggan;

Dashboard internal;

Penelitian login lintas situs yang sudah dilakukan;

Formulir yang bergantung pada akun atau ekstensi browser Anda.

Cara instalasi: buka Plugins dalam Codex, tambahkan Chrome, dan ikuti proses pengaturan. Codex akan membimbing Anda menginstal ekstensi Codex Chrome dan menyetujui izin Chrome. Setelah ekstensi menunjukkan Connected, buka thread baru.

Cara memicu: sebutkan @Chrome, atau secara eksplisit minta Codex menggunakan Chrome yang sudah login:

Gunakan @Chrome untuk meninjau akun pelanggan yang terbuka, bandingkan dengan tiket dukungan di tab lain, dan buat draf bidang yang hilang. Jangan kirim sebelum selesai.

Tugas Chrome akan berjalan di grup tab, membantu mengelompokkan tab terkait thread Codex tertentu. Berbeda dari Browser dalam aplikasi, antarmuka ini membawa identitas browser Anda. Ini membuatnya lebih kuat dan sensitif.

Keunggulan utama lainnya adalah kontrol multi-tab. Chrome memungkinkan beberapa tab terkait satu tugas, membaca konteks di satu halaman, membandingkan informasi di halaman lain, dan melanjutkan alur di halaman ketiga. Penggunaan Komputer juga bisa mengendalikan browser secara visual, tetapi Chrome memahami tugas sebagai alur kerja browser, bukan sekadar serangkaian koordinat layar.

Baru-baru ini, ada thread di mana saya menyerahkan tab Strudel Composer yang sudah terbuka ke Codex, agar membuat musik lebih menarik. Chrome memberi tab yang dipilih dan alat WebMCP yang terbuka di halaman tersebut. Codex memeriksa struktur lagu, menulis ulang harmoni dan bentuk keseluruhan empat menit, mengubah kecepatan, menyimpan lagu, dan melanjutkan pemutaran. Ia tidak perlu mencari kontrol secara visual di antarmuka karena Chrome menggabungkan konteks tab dan kemampuan struktural halaman.

Saya juga menggunakannya untuk menjalankan thread Twitter jangka panjang. Instruksi umum:

Setiap hari, gunakan Chrome untuk memeriksa DM saya, membaca berita relevan, dan mencari feedback atau mention yang perlu saya ketahui. Tambahkan apa pun yang penting ke vault saya. Jangan posting atau kirim pesan.

Menariknya, bukan hanya Codex bisa membuka Twitter, tetapi thread ini bisa kembali ke lingkungan kerja login yang sama dalam jangka panjang, menghubungkan konten yang ditemukan ke file lokal, dan meninggalkan hasil yang bisa saya tinjau.

Batas kepercayaan di sini sangat penting. Situs web mungkin menganggap klik, pengiriman formulir, dan pengiriman pesan dari Codex sebagai tindakan Anda sendiri. Konten halaman web juga tidak bisa dipercaya. Pisahkan langkah-langkah yang konsekuensinya besar: riset, navigasi, dan penyusunan bisa otomatis; sebelum mengirim, memposting, membeli, atau mengirim, perlu pengawasan Anda.

Jika seluruh tugas dilakukan di browser, utamakan Chrome, bukan Penggunaan Komputer. Chrome memiliki konteks asli yang dibutuhkan untuk tugas ini, dan tidak memperluas akses ke seluruh desktop.

Menggunakan @Browser dalam aplikasi untuk mengelola situs yang sedang dikembangkan

Browser dalam aplikasi adalah browser yang berada di dalam thread Codex. Anda dan Codex berbagi halaman render yang sama, sehingga sangat cocok untuk membangun dan debugging aplikasi web.

Biasanya, saya mulai dari sini:

Server pengembangan lokal;

Halaman pratinjau berbasis file;

Halaman publik tanpa login;

Reproduksi bug visual;

Pemeriksaan tata letak responsif;

Memberikan feedback desain langsung pada elemen halaman.

Batasan terpenting adalah isolasi. Browser dalam aplikasi tidak menggunakan profil browser, cookies, ekstensi, sesi login, atau tab yang ada di browser biasa Anda. Jika tugas membutuhkan identitas akun, ini adalah batasan; tetapi jika tidak, ini justru batas yang berguna.

Cara pengaturan: buka Plugins dalam Codex, tambahkan plugin Browser, dan aktifkan.

Cara memicu: sebutkan @Browser dalam prompt, atau secara eksplisit minta Codex menggunakan browser dalam aplikasi:

Gunakan @Browser untuk membuka aplikasi vite di http://localhost:3000/, reproduksi bug overflow mobile, perbaiki, dan verifikasi ulang di desktop dan perangkat mobile.

Ini akan membentuk siklus umpan balik yang erat: Codex bisa mengedit kode, mengoperasikan halaman, memeriksa status render, mengambil screenshot, lalu mengulang proses setelah perbaikan.

Bagian favorit saya adalah anotasi. Saat meninjau aplikasi lokal, saya bisa langsung klik elemen tertentu, atau memilih area dan meninggalkan komentar. Kontrol gaya juga memungkinkan saya melihat pratinjau dan memberi feedback lebih akurat tentang teks, font, jarak, dan warna. Biasanya, saya menggabungkan ini dengan input suara dan panduan proses: meninjau halaman, meninggalkan komentar, dan saat Codex memproses feedback, saya terus menambahkan lebih banyak. Halaman ini sendiri menjadi semacam dokumen spesifikasi.

Ini sangat berguna untuk pekerjaan desain. Saya sering meminta Codex mengubah ide, paket riset, atau status proyek menjadi satu file index.html, lalu membukanya di browser dalam aplikasi. Daripada harus mendeskripsikan seluruh desain di prompt lain, saya bisa langsung menandai: "Hierarki ini terbalik", "Jangan seperti kartu di sini", "Kontrol ini perlu lebih banyak ruang", atau "Gunakan rasio font ini di seluruh situs". Codex akan menerima komentar lengkap dengan screenshot dan konteks elemen, mengubah file, lalu membuka halaman yang sama untuk iterasi berikutnya.

Buat index.html satu file untuk brief proyek ini dan buka di @Browser dalam aplikasi.

Siklus ini terasa lebih seperti bekerja bersama desainer di kanvas yang sama, bukan sekadar mengirim screenshot dan deskripsi bolak-balik.

Browser dalam aplikasi juga cocok sebagai titik awal alur kerja campuran. Dalam thread lain, saya membuka sebuah postingan X dengan browser dalam aplikasi, agar Codex menyelidiki diskusi terkait. Halaman yang terlihat membantunya memastikan saya merujuk ke thread mana; kemudian Codex beralih ke Twitter CLI, menelusuri 38 balasan, termasuk balasan nested yang tersembunyi dari tampilan browser. Ini adalah praktik prinsip "menggunakan antarmuka paling sempit": konfirmasi konteks layar dengan browser, lalu lakukan pencarian lebih dalam dengan alat terstruktur.

Ada juga kompromi di sini. Isolasi dari browser dalam aplikasi membuatnya cocok sebagai antarmuka pengembangan, tetapi tidak ideal untuk login Google, passkey, atau situs yang bergantung pada ekstensi browser. Saat identitas sangat penting, beralih ke Chrome adalah pilihan terbaik.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan