Como usar o computador com o Codex? Três formas de acesso e limites de permissão

Título original: Three Ways Codex Can Use a Computer
Autor original: jason
Tradução: Peggy, BlockBeats

Nota do editor: Este artigo descreve três formas de entrada para o ambiente externo do Codex: Uso do Computador, Extensão Chrome e Navegador interno na aplicação. Embora pareçam todas resolver o problema de “fazer o Codex usar o computador”, cada uma corresponde a diferentes cenários de tarefa, limites de permissão e níveis de confiança.

Dentre elas, o Uso do Computador cobre a maior abrangência, podendo operar diretamente aplicações nativas autorizadas, configurações do sistema, simuladores iOS, e até completar fluxos de trabalho entre múltiplas aplicações. É adequado para processos GUI sem suporte de API, plugins ou ferramentas estruturadas, mas com o custo de menor velocidade e limites de permissão mais amplos. A extensão Chrome é indicada para tarefas que dependem de estado de login, cookies, múltiplas abas e identidade do navegador, como Gmail, LinkedIn, Salesforce, backends internos ou pesquisas logadas em vários sites. O Navegador interno na aplicação é mais voltado para desenvolvimento e depuração, especialmente útil para serviços locais, bugs visuais, layouts responsivos e anotações de design; ele não herda o estado de login do navegador normal do usuário, possui capacidades mais restritas, mas maior isolamento.

A premissa central do artigo é que o Codex não possui uma única forma de “usar o computador”. O mais importante é escolher a interface de operação mais estreita, segura e estruturada, de acordo com a tarefa. Se for possível usar plugins ou MCP, não se deve priorizar controle visual; para tarefas envolvendo desenvolvimento web, prefira o Navegador interno na aplicação; quando for necessário o estado de login do usuário, mude para Chrome; somente quando ferramentas estruturadas não forem suficientes e a tarefa depender de interface gráfica desktop, o Uso do Computador será a última milha.

Appshots não é uma quarta forma de controlar o computador, mas uma ferramenta para “mostrar o contexto da tela atual” ao Codex. Ela resolve o problema de entrada de contexto, enquanto Browser, Chrome e Uso do Computador resolvem o questão de ação. Juntos, revelam uma chave para a produção de produtos com IA: não conceder permissões ilimitadas ao modelo, mas reduzir e delimitar permissões conforme a tarefa, mantendo o usuário com poder de revisão sobre ações críticas.

A seguir, o texto original:

Codex tem três formas de usar o computador: Uso do Computador, Extensão Chrome e Navegador na aplicação.

Elas podem se sobrepor, o que às vezes causa confusão.

Ao ler este artigo, você saberá como instalar e ativar essas três formas, em quais cenários usá-las, como Appshots e Modo Desenvolvedor podem conectá-las, e o que escrever no AGENTS.md para que o Codex possa escolher a interface adequada automaticamente.

A versão simplificada é:

Apesar disso, sempre que possível, prefira plugins ou MCP. Por exemplo, o plugin do Slack permite uma busca mais precisa por um thread do que clicar por aí dentro do Slack; ações geradas por plugins do GitHub também são mais fáceis de verificar do que fazer o Codex controlar a página. Controle visual é mais indicado quando as ferramentas estruturadas atingem seus limites.

Tudo pode ser @Computer

O Uso do Computador é a interface com maior abrangência entre as três. Permite ao Codex visualizar e manipular interfaces gráficas no macOS e Windows, incluindo janelas, menus, entradas de teclado, e a área de transferência de aplicações autorizadas.

Costuma ser também a mais lenta. Plugins estruturados podem chamar APIs diretamente; o Uso do Computador precisa observar a interface, decidir onde clicar, esperar a resposta do aplicativo, e verificar o próximo estado. Esse ciclo visual consome tempo, mas permite ao Codex operar aplicações sem APIs disponíveis.

No macOS, a lentidão nem sempre incomoda. O Uso do Computador pode atuar em segundo plano em aplicações autorizadas, enquanto você continua usando o computador normalmente. Muitas vezes, ao usar o Codex, percebo que uma aplicação já está realizando um fluxo de trabalho silenciosamente em segundo plano.

Dependendo das aplicações instaladas e autorizadas no seu computador, esses objetos de operação podem incluir Spotify, Xcode, Configurações do Sistema, simulador iOS, ou até espelhamento do iPhone. Pode também alternar entre múltiplas aplicações, lidando com fluxos de trabalho que cruzam diferentes programas.

Quando a tarefa depende de:

Aplicações nativas de desktop, como Spotify ou apps financeiros;

Simuladores iOS, espelhamento de iPhone, ou outros processos que só operam via interface gráfica;

Configurações do sistema ou aplicações;

Fontes de dados sem plugins ou APIs;

Fluxos de trabalho que envolvem troca entre várias aplicações;

Última etapa de uma integração estruturada que falta.

Modo de instalação: abra Configurações do Codex > Uso do Computador, e clique em Instalar.

Modo de ativação: mencione @Computer, ou peça explicitamente ao Codex usar Uso do Computador. Com o avanço do modelo, ele também poderá ativar automaticamente quando necessário.

Alguns exemplos:

Um exemplo favorito, começou com um pacote sendo roubado. A Amazon me informa que preciso esperar cerca de 25 minutos para falar com o suporte. Passei um thread do Codex para o Uso do Computador, que verificava a janela de chat a cada cinco minutos, trocando para a verificação a cada minuto assim que o suporte aparecia, e tentava obter meu reembolso. Quando voltei do banho, o reembolso já tinha sido processado.

Use @Computer para abrir Spotify, encontrar minha playlist Discover Weekly, e iniciá-la. Não altere configurações de conta ou assinatura. Use @Computer para abrir espelhamento de iPhone, reproduzir o bug de onboarding no app iOS, tirar uma captura de tela do estado de falha. Corrija o menor caminho de código relevante, e execute o mesmo fluxo novamente.

Também uso o Uso do Computador como “última milha” em fluxos estruturados. Em uma publicação de vídeo, o Codex pode ler feedback do Slack, modificar código, renderizar novo vídeo, mas a integração do Slack na thread não permite upload de arquivos. Então, o Uso do Computador clicou em Adicionar arquivo, completando essa etapa ausente.

É também a forma com maior limite de confiança. Dê a ele uma aplicação ou fluxo claro de cada vez. Quando aplicações sensíveis não fazem parte da tarefa, mantenha-as fechadas; revise cuidadosamente as permissões pop-up; para operações financeiras, contas, pagamentos, certificados, privacidade ou mudanças de segurança do sistema, é melhor supervisionar pessoalmente.

Usando @Chrome para múltiplas abas e estado de login

A extensão Chrome do Codex permite que ele acesse seu estado de login no Chrome. Quando a tarefa depende de contas, cookies, perfis do navegador, ou abas já abertas e autenticadas, ela deve ser usada.

Este modo é adequado para tarefas em ferramentas como:

Gmail ou LinkedIn;

Salesforce ou backends de suporte;

Painéis internos;

Pesquisas logadas em vários sites;

Formulários que dependem de sua conta ou extensões do navegador.

Modo de instalação: abra Plugins do Codex, adicione Chrome, e siga o fluxo de configuração. O Codex irá guiá-lo na instalação da extensão Chrome do Codex, e na concessão de permissões. Quando a extensão indicar “Conectado”, inicie uma nova thread.

Modo de ativação: mencione @Chrome, ou peça explicitamente ao Codex usar seu Chrome logado:

Use @Chrome para revisar a conta do cliente aberta, comparar com o ticket de suporte na outra aba, e preencher os campos faltantes. Pare antes de enviar.

As tarefas no Chrome rodam em grupos de abas, facilitando manter juntas as abas relacionadas a uma mesma thread do Codex. Diferente do Navegador interno, esse modo carrega sua identidade do navegador, tornando-o mais potente e sensível.

Outra vantagem importante é o controle de múltiplas abas. O Chrome permite associar várias abas a uma mesma tarefa, ler contexto de uma página, consultar informações em outra, e continuar o fluxo em uma terceira. O Uso do Computador também pode controlar o navegador visualmente, mas o Chrome entende a tarefa como um fluxo de trabalho de navegador, não uma sequência de coordenadas na tela.

Recentemente, uma thread me pediu para passar uma aba do Strudel Composer já aberta, para que o Codex tornasse a música mais interessante. O Chrome forneceu a aba selecionada, e a ferramenta WebMCP exposta na página. O Codex analisou a estrutura da música, reescreveu harmonias e a forma geral de quatro minutos, ajustou a velocidade, salvou a faixa, e continuou a reprodução. Não precisou procurar visualmente cada controle, pois o Chrome combinou o contexto da aba com a capacidade estrutural da página.

Também usei para uma thread longa no Twitter. A instrução geral foi:

Todo dia, use Chrome para verificar minhas mensagens diretas, ler notícias relevantes, e procurar feedback ou menções importantes. Adicione tudo de duradouro ao meu vault. Não poste nem envie mensagens.

O interessante não é que o Codex possa abrir o Twitter, mas que essa thread pode retornar continuamente ao mesmo ambiente logado, conectando descobertas a arquivos locais, e deixando um resultado para minha revisão.

A confiança aqui é fundamental. Sites podem interpretar cliques, envios de formulários e mensagens como ações suas. O conteúdo da página também é entrada não confiável. Separe claramente passos de maior impacto: pesquisa, navegação e rascunho podem ser automáticos; envio, publicação, compra ou submissão requerem sua revisão antes.

Se toda a tarefa ocorre no navegador, prefira Chrome ao Uso do Computador. O Chrome possui o contexto nativo necessário, sem ampliar o acesso ao desktop inteiro.

Usando @Browser na aplicação para desenvolver seu site

O Navegador interno na aplicação é um navegador dentro do thread do Codex. Compartilha a mesma renderização da página, ideal para construir e depurar aplicações web.

Costumo começar por aqui:

Servidor de desenvolvimento local;

Página de pré-visualização baseada em arquivo;

Página pública sem login;

Reprodução de bugs visuais;

Verificação de layouts responsivos;

Deixar comentários de design nos elementos da página.

A maior limitação é o isolamento. O navegador interno não usa seu perfil, cookies, extensões, sessões de login ou abas existentes do navegador normal. Quando a tarefa exige autenticação, isso é uma limitação; mas, quando não, é uma fronteira útil.

Modo de configuração: abra Plugins do Codex, adicione o plugin Browser e ative.

Modo de ativação: mencione @Browser na prompt, ou peça explicitamente ao Codex usar o navegador interno:

Use @Browser para abrir a aplicação vite em http://localhost:3000/, reproduzir o bug de overflow móvel, corrigi-lo, e verificar a mesma rota em larguras de desktop e mobile.

Isso cria um ciclo de feedback estreito: o Codex pode editar código, manipular a página, verificar o render, tirar screenshots, e revalidar após correções.

Minha parte favorita é a anotação. Ao revisar uma aplicação local, posso clicar em um elemento, ou selecionar uma área e deixar comentários. Os controles de estilo também permitem uma visualização mais precisa de textos, fontes, espaçamentos e cores. Costumo combinar isso com entrada de voz e orientação de processos: reviso a página, deixo comentários, e enquanto o Codex processa o feedback, adiciono mais observações. A própria página vira uma especificação.

Isso é especialmente útil para design. Frequentemente peço ao Codex que organize uma ideia, pacote de pesquisa, ou estado de projeto em um arquivo index.html, e o abra no navegador interno. Em vez de descrever toda a ideia em outro prompt, posso marcar diretamente na página: “esta hierarquia está invertida”, “não use tanto cartão aqui”, “esses controles precisam de mais espaço”, ou “usar essa proporção de fonte em todo o site”. O Codex recebe comentários com capturas e contexto, modifica o arquivo, e reabre a página para a próxima rodada.

Crie um index.html de arquivo único para este briefing do projeto e abra-o no @Browser interno.

Esse ciclo parece mais trabalhar junto com um designer na mesma tela, do que enviar capturas e textos de ida e volta.

O Navegador interno também é útil como ponto de partida para fluxos híbridos. Em outro thread, abri uma postagem do X usando o navegador interno, para que o Codex investigasse a discussão. A página mostrou qual postagem eu quis dizer; depois, ele trocou para o Twitter CLI, recuperando 38 respostas, incluindo respostas aninhadas que o navegador ocultou. Essa é a prática do princípio de “usar a interface mais estreita”: confirmar o contexto na tela, e usar ferramentas estruturadas para buscas mais profundas.

Há também uma troca de prioridades. O navegador interno oferece isolamento, ótimo para desenvolvimento, mas não é adequado para sites que exigem login no Google, passkeys, ou dependem de extensões do navegador. Quando a identidade é importante, mude para Chrome.

Appshots

Appshot não é uma quarta forma de controle do computador pelo Codex. É uma maneira de apontar o contexto da sua tela ao Codex.

No Mac, pressionar duas vezes CMD captura a janela mais recente. O Codex anexa uma imagem e todo texto disponível ao thread. Você pode fazer um Appshot de um erro, email, design, painel de configurações, ou formulário desconhecido, e simplesmente dizer:

Essa é a minha metáfora mental mais fácil de lembrar: Appshots é a sua forma de apontar para algo no computador; Browser, Chrome e Uso do Computador são as formas do Codex agir.

Atualmente, Appshots é criado pelo aplicativo do Codex no macOS. Ele captura a janela mais à frente, não o desktop inteiro. Assim, é uma forma útil: você fornece um contexto focado, sem dar controle total ao aplicativo.

Como acompanhar esses avanços

Essas interfaces mudam rapidamente. Se deseja detalhes práticos, ao invés de esperar por um grande resumo de lançamento:

Siga Ari Weinstein (@AriX) para novidades sobre Uso do Computador e Appshots;

Siga James Sun (@JamesZmSun) para novidades sobre a extensão Chrome;

Siga Andrew Ambrosino (@ajambrosino) para novidades sobre lançamentos do Codex e narrativas maiores de produtos desktop;

Siga OpenAI Developers (@OpenAIDevs) para notícias mais amplas do Codex e da plataforma OpenAI.

[Link do artigo original]

Clique para saber mais sobre as vagas na BlockBeats

Participe do grupo oficial da BlockBeats:

Telegram assinatura: https://t.me/theblockbeats

Telegram grupo: https://t.me/BlockBeats_App

Twitter oficial: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado