Codex如何使用電腦?三種入口與權限邊界

原文標題:Three Ways Codex Can Use a Computer
原文作者:jason
編譯:Peggy,BlockBeats

編者按:這篇文章梳理了 Codex 操作外部環境的三種入口:Computer Use、Chrome 擴展和應用內 Browser。三者看似都在解決「讓 Codex 使用電腦」的問題,但對應的是不同的任務場景、權限邊界和信任級別。

其中,Computer Use 覆蓋面最廣,可以直接操作 macOS / Windows 上被授權的原生應用、系統設置、iOS 模擬器,甚至跨多個應用完成工作流程。它適合那些沒有 API、插件或結構化工具支持的 GUI 流程,但代價是速度更慢,權限邊界也最寬。Chrome 擴展則適合依賴登入狀態、Cookies、多標籤頁和瀏覽器身份的任務,例如 Gmail、LinkedIn、Salesforce、內部後台,或跨多個網站的已登入研究。應用內 Browser 更偏向開發和調試場景,尤其適合本地服務、視覺 bug、響應式佈局和設計批注;它不繼承用戶正常瀏覽器的登入狀態,能力更窄,但隔離性也更強。

文章的核心判斷是,Codex 並不是只有一種「用電腦」的方式,真正重要的是根據任務選擇最窄、最安全、最結構化的操作界面。能用插件或 MCP,就不應先動用視覺控制;任務只涉及網頁開發,就優先使用應用內 Browser;需要用戶瀏覽器身份和登入狀態時,再切換到 Chrome;只有當結構化工具無法覆蓋,且任務必須依賴桌面圖形界面時,Computer Use 才是最後一公里。

Appshots 則不是第四種控制電腦的方式,而是把當前螢幕上下文「指給 Codex 看」的工具。它解決的是上下文輸入問題,而 Browser、Chrome 和 Computer Use 解決的是行動問題。放在一起看,這套分層實際揭示了 AI Agent 產品化的關鍵:不是讓模型獲得無限權限,而是在具體任務中不斷收窄權限、明確邊界,並讓用戶保留對關鍵行動的審核權。

以下為原文:

Codex 使用電腦有三種方式:Computer Use、Chrome 擴展,以及應用內瀏覽器。

它們之間有一定重疊,剛好重疊到容易讓人困惑。

讀完這篇文章,你會知道如何安裝並觸發這三種方式,分別該在什麼場景下使用,Appshots 和 Developer mode 如何把它們連接起來,以及該在 AGENTS.md 裡寫些什麼,讓 Codex 能自己選擇合適的操作界面。

簡單版是:

話雖如此,只要可以,還是優先使用插件或 MCP。比如 Slack 插件能比在 Slack 裡到處點擊更精準地檢索一個線程;GitHub 插件產生的操作,也比讓 Codex 驅動網頁更容易檢查。視覺控制最適合用在結構化工具能力到達邊界的地方。

一切都可以是 @Computer

Computer Use 是這三種操作界面裡覆蓋面最廣的一個。它讓 Codex 能夠在 macOS 和 Windows 上查看並操作圖形界面,包括視窗、選單、鍵盤輸入,以及你授權應用裡的剪貼簿。

它通常也是最慢的。結構化插件可以直接調用 API;Computer Use 則需要觀察界面、判斷該點擊哪裡、等待應用回應,再檢查下一步狀態。這個視覺循環會消耗時間,但也意味著 Codex 可以操作那些完全沒有可用 API 的應用。

在 macOS 上,慢並不一定意味著會打擾你。Computer Use 可以在背景操作你授權的應用,而你仍然可以繼續使用電腦的其他部分。很多時候,我在用 Codex 時打開某個應用,才發現 Codex 已經在背景安靜地完成了一套工作流程。

根據你電腦上安裝並授權了哪些應用,這些操作對象可以包括 Spotify、Xcode、System Settings、iOS 模擬器,甚至是用 iPhone Mirroring 控制你的 iPhone。它也可以在多個應用之間切換,處理跨越不同應用的工作流程。

當任務依賴以下內容時,可以使用它:

原生桌面應用,比如 Spotify 或金融類應用;

iOS 模擬器、iPhone Mirroring,或其他只能通過圖形界面操作的流程;

系統或應用設置;

沒有插件或 API 的資料源;

需要在多個應用之間切換的工作流程;

某個結構化集成裡缺失的最後一步操作。

安裝方式:打開 Codex 的 Settings > Computer Use,然後點擊 Install。

觸發方式:提到 @Computer,或者明確要求 Codex 使用 Computer Use。隨著模型能力提升,未來在需要時它也會自己調用。

可以先試幾個例子:

我最喜歡的一個例子,起因是一個包裹被偷了。Amazon 告訴我,要等大約 25 分鐘才能接通客服。我把一個 Codex 線程交給 Computer Use,讓它每五分鐘檢查一次聊天視窗,等客服出現後改為每分鐘檢查一次,並盡力幫我拿到退款。等我洗完澡回來,退款已經完成了。

Use @Computer to open Spotify, find my Discover Weekly playlist, and start it. Do not change my account or subscription settings.Use @Computer to open iPhone Mirroring, reproduce the onboarding bug in the iOS app, and take a screenshot of the failing state. Fix the smallest relevant code path, then run the same flow again.

我也把 Computer Use 用作結構化工作流程裡的「最後一公里」。在一次發布影片中,Codex 可以從 Slack 讀取反饋、修改代碼並渲染新影片,但當時該線程裡的 Slack 整合無法上傳檔案。於是 Computer Use 點擊了 Add file,補上了這個缺失的步驟。

它也是三者中信任邊界最寬的一種。一次只給它一個明確的應用或流程。當某些敏感應用不是任務的一部分時,保持關閉;仔細檢查權限彈窗;涉及金融、帳戶、支付、憑證、隱私和系統安全變更時,最好人在場監督。

用 @Chrome 處理多標籤頁和登入狀態

Codex Chrome 擴展讓 Codex 能訪問你已經登入的 Chrome 狀態。當任務依賴帳號、cookies、瀏覽器配置檔,或你已經打開並認證過的標籤頁時,就應該使用它。

這類操作界面適合以下工具中的工作:

Gmail 或 LinkedIn;

Salesforce 或客服後台;

內部儀表板;

跨多個網站的已登入研究;

依賴你的帳號或瀏覽器擴展的表單。

安裝方式:打開 Codex 的 Plugins,添加 Chrome,並按照設置流程操作。Codex 會引導你安裝 Codex Chrome 擴展,並批准 Chrome 權限。當擴展顯示 Connected 後,開啟一個新線程。

觸發方式:提到 @Chrome,或者明確要求 Codex 使用你已登入的 Chrome 瀏覽器:

Use @Chrome to review the open customer account, compare it with the support ticket in the other tab, and draft the missing fields. Stop before submitting.

Chrome 任務會在標籤頁組裡運行,這有助於把某個 Codex 線程相關的標籤頁放在一起。和應用內瀏覽器不同,這個操作界面攜帶的是你的瀏覽器身份。這讓它能力更強,也更敏感。

另一個主要優勢是多標籤頁控制。Chrome 可以讓多個標籤頁與同一個任務關聯起來,在一個頁面裡讀取上下文,在另一個頁面裡對照資訊,再到第三個頁面繼續工作流程。Computer Use 也可以透過視覺方式驅動瀏覽器,但 Chrome 會把任務理解為一個瀏覽器工作流程,而不是一連串螢幕座標操作。

最近有一個線程,我把一個已經打開的 Strudel Composer 標籤頁交給 Codex,讓它把音樂做得更有趣。Chrome 給了它被選中的標籤頁,以及這個頁面暴露出來的 WebMCP 工具。Codex 檢查了樂曲結構,重寫了和聲和四分鐘的整體形式,修改了速度,保存了曲目,並讓它繼續播放。它不需要在界面上視覺搜尋每一個控件,因為 Chrome 可以把標籤頁上下文和頁面提供的結構化能力結合起來。

我還用它跑一個長期 Twitter 線程。大致指令是:

Every day, use Chrome to check my DMs, read relevant news, and look for feedback or mentions I should know about. Add anything durable to my vault. Do not post or send messages.

有意思的地方,不是 Codex 能打開 Twitter,而是這個線程可以長期回到同一個已登入工作環境,把發現的內容連結到本地檔案,並留下可供我審核的結果。

這裡的信任邊界很重要。網站可能會把 Codex 的點擊、表單提交和訊息發送視為你本人採取的行動。網頁內容本身也是不可信輸入。把後果較重的步驟明確區分出來:研究、導航和起草可以自動完成;發送、發布、購買或提交之前,需要你審核。

如果整個任務都在瀏覽器裡完成,優先用 Chrome,而不是 Computer Use。Chrome 擁有這類任務需要的瀏覽器原生上下文,同時不會把存取範圍擴大到整個桌面。

用應用內 @Browser 處理你正在開發的網站

應用內瀏覽器是存在於 Codex 線程內部的瀏覽器。你和 Codex 共享同一個渲染頁面,所以它特別適合構建和調試 Web 應用。

我通常會從這裡開始處理:

本地開發伺服器;

基於檔案的預覽頁面;

不需要登入的公開頁面;

復現視覺 bug;

檢查響應式佈局;

留下針對頁面元素的設計反饋。

它最重要的約束是隔離。應用內瀏覽器不會使用你的普通瀏覽器配置檔、cookies、擴展、登入會話或現有標籤頁。當任務需要帳號身份時,這是一個限制;但當任務不需要帳號時,這反而是一個有用的邊界。

設置方式:打開 Codex 的 Plugins,添加 Browser 插件並啟用它。

觸發方式:在提示詞裡提到 @Browser,或者明確要求 Codex 使用應用內瀏覽器:

Use @Browser to open vite app on http://localhost:3000/, reproduce the mobile overflow bug, fix it, and verify the same route again at desktop and mobile widths.

這會形成一個緊密反饋循環:Codex 可以編輯代碼、操作頁面、檢查渲染狀態、截圖,然後在修復後重新驗證同一流程。

我最喜歡的部分是標註。當我評審一個本地應用時,可以直接點擊某個元素,或選中一塊區域並留下評論。樣式控件也讓我可以更精準地預覽和反饋文字、字體、間距和顏色。我通常會把它和語音輸入、過程引導結合起來:我評審頁面、留下評論,並在 Codex 處理當前反饋時繼續排隊添加更多意見。這個頁面本身就變成了規格說明書。

這對設計工作尤其有用。我經常要求 Codex 把一個想法、一份研究包,或一個專案狀態整理成一個單檔 index.html,然後用應用內瀏覽器打開它。比起在另一個提示詞裡試圖描述整套設計,我可以直接在真實頁面上標註:「這個層級關係反了」「這裡不要那麼像卡片」「這些控件需要更多空間」,或者「全站都用這個字號比例」。Codex 會收到帶有相關截圖和元素上下文的評論,修改檔案,然後重新打開同一頁面進入下一輪。

Create a single-file index.html for this project brief and open it in the in-app @Browser.

這個循環感覺更接近於和一位設計師在同一張畫布上工作,而不是來回傳截圖和文字說明。

應用內瀏覽器也適合作為混合工作流程的起點。在另一個線程裡,我用應用內瀏覽器打開了一條 X 貼文,讓 Codex 調查相關討論。可見頁面幫助它確認我指的是哪一條貼文;隨後 Codex 切換到 Twitter CLI,檢索了 38 條回覆,其中包括瀏覽器視圖隱藏掉的嵌套回覆。這就是「使用最窄操作界面」原則的實踐:用瀏覽器確認螢幕上的上下文,再用結構化工具做更深層檢索。

這裡也有取捨。應用內瀏覽器的隔離性讓它成為很好的開發界面,但也意味著它不適合處理 Google 登入、passkey,或依賴瀏覽器擴展的網站。當身份很重要時,切換到 Chrome。

Appshots

Appshot 不是 Codex 控制電腦的第四種方式。它是一種把 Codex 指向你眼前上下文的方法。

在 Mac 上,按兩次 CMD 鍵,就可以捕捉最近的視窗。Codex 會把一張圖片和所有可用文本附加到線程裡。你可以對一個錯誤、一封郵件、一個設計、一個設置面板,或者一個陌生表單做 Appshot,然後直接說:

這就是我覺得最容易記住的心智模型:Appshots 是你用來指向電腦上某個東西的方式;Browser、Chrome 和 Computer Use 則是 Codex 采取行動的方式。

Appshots 目前通過 macOS 上的 Codex 應用建立。它捕捉的是最前面的視窗,而不是整個桌面。這使它成為一種很有用的方式:你可以提供聚焦的上下文,而無需授予對該應用的控制權。

如何跟進這些進展

這些操作界面變化很快。如果你想獲得實用細節,而不是等待一篇巨大的發布總結:

關注 Ari Weinstein(@AriX),了解 Computer Use 和 Appshots;

關注 James Sun(@JamesZmSun),了解 Browser 相關內容;

關注 Andrew Ambrosino(@ajambrosino),了解 Codex 應用發布,以及更大的桌面產品敘事;

關注 OpenAI Developers(@OpenAIDevs),了解更廣泛的 Codex 和 OpenAI Platform 新聞。

[原文連結]

點擊了解律動BlockBeats 在招崗位

歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆