Як користуватися комп’ютером за допомогою Codex? Три способи входу та межі доступу

Оригінальна назва: Три способи використання Codex з комп’ютером
Автор оригіналу: jason
Переклад: Peggy, BlockBeats

Редакторський коментар: у цій статті розглянуто три входи для зовнішнього середовища управління Codex: Використання комп’ютера, розширення Chrome та вбудований браузер у додатку. Вони здаються схожими у вирішенні питання «як змусити Codex користуватися комп’ютером», але відповідають різним сценаріям задач, межам дозволів і рівням довіри.

Зокрема, Використання комп’ютера охоплює найбільше — може безпосередньо керувати нативними додатками, системними налаштуваннями, емулятором iOS на macOS / Windows, навіть виконувати робочі процеси між кількома додатками. Це підходить для GUI-процесів без API, плагінів або структурованих інструментів, але за ціною меншої швидкості та ширших меж дозволів. Розширення Chrome підходить для задач, що залежать від стану входу, cookies, багатозначних вкладок і ідентичності браузера, наприклад Gmail, LinkedIn, Salesforce, внутрішні бекенди або дослідження з входом на кілька сайтів. Вбудований браузер у додатку більше орієнтований на розробку і налагодження, особливо для локальних сервісів, візуальних багів, адаптивних макетів і коментарів до дизайну; він не успадковує стан входу користувача у звичайному браузері, має більш вузькі можливості, але й із більшою ізоляцією.

Головний висновок статті — Codex не обмежується одним способом «використання комп’ютера», важливо обирати найвужчий, найбезпечніший і структурований інтерфейс відповідно до задачі. Якщо можна використовувати плагіни або MCP, не слід одразу застосовувати візуальний контроль; якщо задача стосується веб-розробки — переважно використовувати вбудований браузер; коли потрібно ідентичність і стан входу у браузері — переключатися на Chrome; і лише коли структуровані інструменти не підходять і потрібно графічне інтерфейсне середовище — Використання комп’ютера стає останнім кроком.

Appshots — це не четвертий спосіб контролю комп’ютера, а інструмент «показати Codex поточний контекст екрана». Вони вирішують проблему введення контексту, тоді як Browser, Chrome і Використання комп’ютера — проблему дій. Разом ця ієрархія відкриває ключові ідеї продукту AI-агента: не надавати моделі необмежені дозволи, а звужувати їх у конкретних задачах, чітко визначати межі і зберігати контроль користувача над ключовими діями.

Нижче — оригінал:

Три способи використання комп’ютера з Codex: Використання комп’ютера, розширення Chrome і вбудований браузер у додатку.

Між ними є певне перекриття, що іноді може заплутати.

Після прочитання цієї статті ви дізнаєтеся, як встановити і активувати ці три способи, у яких сценаріях їх використовувати, як Appshots і Developer mode з’єднують їх між собою, і що потрібно прописати у AGENTS.md, щоб Codex міг самостійно обирати відповідний інтерфейс.

Спрощена версія:

Хоча так, якщо можливо — краще використовувати плагіни або MCP. Наприклад, плагін Slack дозволяє точніше шукати потік у чаті, ніж натискати по всьому Slack; операції, що генеруються плагіном GitHub, легше перевірити, ніж керувати веб-сторінкою через Codex. Візуальний контроль найкраще застосовувати там, де структуровані інструменти досягають межі.

Все може бути @Computer

Використання комп’ютера — найширше серед трьох інтерфейсів. Воно дозволяє Codex бачити і керувати графічним інтерфейсом на macOS і Windows, включаючи вікна, меню, клавіатурні команди і буфер обміну у дозволених додатках.

Зазвичай воно і найповільніше. Структуровані плагіни можуть викликати API напряму; Використання комп’ютера вимагає спостереження за інтерфейсом, визначення, куди натиснути, очікування відповіді додатку і перевірки наступного стану. Цикл візуального спостереження витрачає час, але дозволяє керувати додатками без API.

На macOS це не обов’язково заважає вам. Використання комп’ютера може працювати у фоновому режимі, виконуючи дозволені дії, поки ви користуєтеся іншими частинами комп’ютера. Часто, коли я використовую Codex, він уже тихо виконує робочий процес у бекграунді.

Залежно від встановлених і дозволених додатків, цілі можуть включати Spotify, Xcode, системні налаштування, емулятор iOS або навіть дзеркало iPhone для керування iPhone. Воно може перемикатися між кількома додатками, обробляючи робочі процеси, що охоплюють різні програми.

Коли задачі залежать від:

нативних десктопних додатків, наприклад Spotify або фінансових програм;

емуляторів iOS, дзеркалювання iPhone або інших графічних процесів;

системних або додаткових налаштувань;

відсутності API або плагінів для джерел даних;

робочих процесів із перемиканням між кількома додатками;

останнього кроку у структурованій інтеграції, що відсутній.

Якщо потрібно, щоб працювати з цим — встановіть: відкрийте Settings > Computer Use у Codex і натисніть Install.

Як активувати: згадати @Computer або чітко попросити Codex використати Використання комп’ютера. З розвитком моделі він зможе викликати його автоматично у разі потреби.

Приклади:

Мій улюблений приклад — це випадок, коли крадіжка посилки. Amazon повідомив, що потрібно чекати близько 25 хвилин, щоб зв’язатися з підтримкою. Я передав потік Codex у Використання комп’ютера, щоб він кожні 5 хвилин перевіряв чат, і, коли з’явиться підтримка, — кожну хвилину, щоб отримати повернення. Після душу повернувся — і вже отримав гроші назад.

Use @Computer to open Spotify, find my Discover Weekly playlist, and start it. Do not change my account or subscription settings.Use @Computer to open iPhone Mirroring, reproduce the onboarding bug in the iOS app, and take a screenshot of the failing state. Fix the smallest relevant code path, then run the same flow again.

Я також використовую Використання комп’ютера як «останній крок» у структурованих робочих процесах. Наприклад, при публікації відео, Codex може зчитати відгуки з Slack, змінити код і згенерувати нове відео, але тоді інтеграція Slack у цій потоковій частині не працювала. Тоді Використання комп’ютера натиснуло «Додати файл», щоб додати цей пропущений крок.

Це також найширша межа довіри. Дозволяє давати йому один конкретний додаток або процес. Якщо додаткові чутливі додатки не входять у задачу — тримайте їх закритими; уважно перевіряйте спливаючі вікна дозволів; при роботі з фінансами, обліковими записами, платежами, документами, приватністю або системною безпекою — краще бути присутнім і контролювати.

Обробка кількох вкладок і стану входу за допомогою @Chrome

Розширення Chrome для Codex дозволяє отримати доступ до вже увійденого стану у Chrome. Якщо задача залежить від облікових записів, cookies, профілів браузера або вже відкритих і авторизованих вкладок — слід використовувати його.

Цей інтерфейс підходить для роботи з такими інструментами:

Gmail або LinkedIn;

Salesforce або бекенд підтримки;

внутрішні панелі управління;

дослідження з входом на кілька сайтів;

форми, що залежать від облікових записів або розширень браузера.

Як встановити: відкрийте Plugins у Codex, додайте Chrome і слідуйте інструкціям. Codex проведе вас через установку розширення і дозвіл на Chrome. Коли з’явиться статус Connected — відкривайте новий потік.

Як активувати: згадати @Chrome або чітко попросити використати ваш увійдений Chrome:

Use @Chrome to review the open customer account, compare it with the support ticket in the other tab, and draft the missing fields. Stop before submitting.

Задачі у Chrome працюють у групах вкладок, що допомагає тримати разом усі вкладки, пов’язані з одним потоком Codex. На відміну від вбудованого браузера, цей інтерфейс несе вашу ідентичність браузера, що робить його більш потужним і чутливим.

Ще один важливий плюс — контроль кількох вкладок. Chrome дозволяє зв’язати кілька вкладок з одним завданням, читати контекст у одній, порівнювати інформацію в іншій і продовжувати роботу у третій. Використання комп’ютера також може керувати браузером через візуальні підказки, але Chrome розглядає задачу як браузерний робочий процес, а не послідовність координат.

Недавно я передав Codex відкриту вкладку Strudel Composer для роботи з музикою. Chrome дав йому активну вкладку і WebMCP-інструмент, що був на цій сторінці. Codex проаналізував структуру музики, переписав гармонію і форму, змінив швидкість, зберіг трек і продовжив грати. Він не шукав елементи інтерфейсу, бо Chrome поєднує контекст вкладки з структурованими можливостями сторінки.

Я також використовую його для довготривалого потоку у Twitter. Орієнтовна команда:

Every day, use Chrome to check my DMs, read relevant news, and look for feedback or mentions I should know about. Add anything durable to my vault. Do not post or send messages.

Цікаво, що не лише Codex може відкривати Twitter, а й цей потік може довго повертатися до одного входу у браузер, зберігати знайдене у локальні файли і залишати результати для перевірки.

Це важливо з точки зору межі довіри. Веб-сайти можуть вважати дії Codex — натискання, відправлення форм і повідомлень — вашими. Сам контент сторінки — недовірливий. Визначте чітко, які кроки автоматизувати, а які — під контролем користувача: дослідження, навігація і чернетки — автоматично; відправлення, публікація, покупки — під вашим контролем.

Якщо вся задача виконується у браузері — краще використовувати Chrome, а не Використання комп’ютера. Chrome має нативний браузерний контекст для таких задач і не розширює доступ до всього робочого столу.

Обробка у вбудованому браузері для сайтів, що розробляєте

Вбудований браузер — це браузер у потоці Codex. Ви і Codex спільно бачите один і той самий рендеринг сторінки, тому він ідеально підходить для створення і налагодження веб-додатків.

Зазвичай я починаю з:

локального сервера розробки;

сторінки попереднього перегляду з файлів;

публічних сторінок без входу;

відтворення візуальних багів;

перевірки адаптивності;

залишення відгуків щодо елементів сторінки.

Найважливіша обмеження — ізоляція. Вбудований браузер не використовує ваші звичайні налаштування браузера, cookies, розширення, сесії входу або відкриті вкладки. Це обмеження, якщо потрібно працювати з обліковими записами; але якщо ні — це корисна межа.

Як налаштувати: відкрийте Settings > Browser у Codex і додайте відповідний плагін.

Як активувати: згадати @Browser або чітко попросити використати вбудований браузер:

Use @Browser to open vite app on http://localhost:3000/, reproduce the mobile overflow bug, fix it, and verify the same route again at desktop and mobile widths.

Це створює тісний зворотній зв’язок: Codex може редагувати код, керувати сторінкою, перевіряти рендеринг, робити скріншоти і повторювати процес після виправлення.

Мій улюблений аспект — позначки. Коли я рецензую локальний сайт, можу натиснути на елемент або обрати область і залишити коментар. Стилі також дозволяють точніше попередньо переглядати і коментувати текст, шрифти, відступи і кольори. Я зазвичай поєдную це з голосовим введенням і керуванням процесом: рецензую сторінку, залишаю коментарі і додаю нові під час обробки поточного зворотного зв’язку. Саме ця сторінка стає технічним описом.

Це особливо корисно для дизайну. Я часто прошу Codex зібрати ідею, дослідження або стан проекту в один файл index.html і відкрити його у вбудованому браузері. Замість опису всього дизайну у ще одному повідомленні, я можу прямо позначити: «цей рівень ієрархії неправильний», «тут не треба так багато карток», «контролам потрібно більше простору», або «весь сайт зробити з цим масштабом шрифту». Codex отримує коментарі з скріншотами і контекстом елементів, змінює файл і знову відкриває його для наступного циклу.

Create a single-file index.html for this project brief and open it in the in-app @Browser.

Цей цикл нагадує роботу на одній дошці з дизайнером, а не обмін скріншотами і текстами.

Вбудований браузер також підходить для старту гібридних робочих процесів. Наприклад, у іншому потоці я відкрив у ньому пост у X, щоб дослідити обговорення. Відкритий сайт допоміг йому зрозуміти, про який пост ідеться; потім Codex переключився у Twitter CLI, зібрав 38 відповідей, включно з прихованими вкладеними відповідями. Це — приклад застосування принципу «найвужчого інтерфейсу»: спершу підтвердити контекст на екрані через браузер, потім — глибше дослідження за допомогою структурованих інструментів.

Звісно, є компроміси. Вбудований браузер із ізоляцією — хороший для розробки, але не підходить для входу через Google, passkey або сайтів із розширеннями. Там, де важлива ідентичність — краще переключитися на Chrome.

Appshots

Appshot — це не четвертий спосіб контролю комп’ютера з Codex. Це спосіб «направити Codex на ваш поточний контекст».

На Mac натисніть двічі CMD — і зробіть скрін найактуальнішого вікна. Codex додасть зображення і весь доступний текст у потік. Можна зробити Appshot для помилки, листа, дизайну, налаштувань або незнайомої форми і просто сказати:

Це — найпростіша модель розуміння: Appshots — спосіб вказати Codex, що потрібно показати; Browser, Chrome і Використання комп’ютера — способи діяти.

Зараз Appshots створюється через додаток Codex на macOS. Вони захоплюють найпередніше вікно, а не весь робочий стіл. Це корисно, бо дозволяє зосередитися на конкретному контексті без контролю над додатком.

Як просувати ці нововведення

Ці інтерфейси швидко змінюються. Щоб отримати практичні деталі, а не чекати великого огляду релізів:

стежте за Ari Weinstein (@AriX), щоб дізнатися про Використання комп’ютера і Appshots;

стежте за James Sun (@JamesZmSun), щоб дізнатися про Browser;

стежте за Andrew Ambrosino (@ajambrosino), щоб слідкувати за релізами Codex і великими історіями про десктопні продукти;

стежте за OpenAI Developers (@OpenAIDevs), щоб бути в курсі новин про Codex і платформу OpenAI.

[Посилання на оригінал]

Дізнайтеся про вакансії BlockBeats у галузі

Запрошуємо приєднатися до офіційної спільноти BlockBeats:

Telegram підписка: https://t.me/theblockbeats

Telegram група: https://t.me/BlockBeats_App

Офіційний Twitter: https://twitter.com/BlockBeatsAsia

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено