¿Cómo usar una computadora con Codex? Tres formas de acceso y límites de permisos

Título original: Tres formas en que Codex puede usar una computadora
Autor original: jason
Traducción: Peggy, BlockBeats

Nota del editor: Este artículo analiza las tres formas de acceder al entorno externo de operación de Codex: Uso de Computadora, Extensión de Chrome y Navegador en la aplicación. Aunque parecen resolver todas el problema de "hacer que Codex use la computadora", cada una corresponde a diferentes escenarios de tarea, límites de permisos y niveles de confianza.

Entre ellas, Uso de Computadora cubre el rango más amplio, permitiendo operar directamente aplicaciones nativas autorizadas, configuraciones del sistema, simuladores de iOS, e incluso completar flujos de trabajo a través de múltiples aplicaciones. Es adecuado para procesos GUI sin soporte de API, plugins o herramientas estructuradas, pero con el costo de menor velocidad y límites de permisos más amplios. La extensión de Chrome es ideal para tareas que dependen del estado de inicio de sesión, cookies, múltiples pestañas y la identidad del navegador, como Gmail, LinkedIn, Salesforce, backend interno o investigaciones en múltiples sitios ya autenticados. El Navegador en la aplicación se orienta más a escenarios de desarrollo y depuración, especialmente para servicios locales, bugs visuales, diseños responsivos y anotaciones de diseño; no hereda el estado de inicio de sesión del navegador del usuario, tiene capacidades más limitadas, pero mayor aislamiento.

El núcleo del artículo es que Codex no tiene una única forma de "usar la computadora"; lo realmente importante es escoger la interfaz de operación más estrecha, segura y estructurada según la tarea. Si se puede usar un plugin o MCP, no debería recurrirse primero al control visual; si la tarea solo involucra desarrollo web, se prefiere el Navegador en la app; cuando se requiere la identidad y sesión del navegador del usuario, se cambia a Chrome; solo cuando las herramientas estructuradas no cubren y la tarea depende de la interfaz gráfica de escritorio, Uso de Computadora es la última milla.

Appshots no es una cuarta forma de controlar la computadora, sino una herramienta para "mostrarle a Codex" el contexto de la pantalla actual. Resuelve el problema del entrada de contexto, mientras que el Navegador, Chrome y Uso de Computadora abordan el acción. En conjunto, esta jerarquía revela la clave para la producción de productos con agentes de IA: no dar permisos ilimitados al modelo, sino reducirlos, definir límites claros y mantener al usuario con poder de auditoría sobre acciones clave.

A continuación, el texto original:

Codex tiene tres formas de usar la computadora: Uso de Computadora, Extensión de Chrome y Navegador en la aplicación.

Hay cierta superposición entre ellas, que puede resultar confusa.

Al terminar este artículo, sabrás cómo instalar y activar estas tres formas, en qué escenarios usarlas, cómo conectar Appshots y Modo Desarrollador, y qué escribir en AGENTS.md para que Codex pueda elegir automáticamente la interfaz adecuada.

La versión sencilla es:

Dicho esto, siempre que sea posible, prefiere usar plugins o MCP. Por ejemplo, el plugin de Slack permite buscar un hilo con mayor precisión que clicando por todas partes en Slack; las acciones generadas por el plugin de GitHub también son más fáciles de verificar que hacer que Codex controle la web. El control visual es más adecuado cuando las capacidades de herramientas estructuradas alcanzan su límite.

Todo puede ser @Computer

Uso de Computadora es la interfaz con mayor cobertura entre estas tres. Permite a Codex ver y manipular interfaces gráficas en macOS y Windows, incluyendo ventanas, menús, entradas de teclado y el portapapeles en aplicaciones autorizadas.

Generalmente, también es la más lenta. Los plugins estructurados llaman APIs directamente; Uso de Computadora requiere observar la interfaz, decidir dónde hacer clic, esperar la respuesta de la aplicación y verificar el estado siguiente. Este ciclo visual consume tiempo, pero permite a Codex operar en aplicaciones sin APIs disponibles.

En macOS, la lentitud no siempre significa molestia. Uso de Computadora puede operar en segundo plano en aplicaciones autorizadas, mientras tú sigues usando otras partes del equipo. Muchas veces, al usar Codex, abro una aplicación y descubro que ya ha completado un flujo de trabajo en silencio en segundo plano.

Dependiendo de las aplicaciones instaladas y autorizadas en tu equipo, estos objetos de operación pueden incluir Spotify, Xcode, Configuración del sistema, simuladores de iOS, o incluso controlar tu iPhone mediante Mirroring. También puede cambiar entre varias aplicaciones, manejando flujos de trabajo que cruzan diferentes programas.

Cuando la tarea depende de:

Aplicaciones nativas de escritorio, como Spotify o apps financieras;

Simuladores de iOS, Mirroring de iPhone, o procesos que solo se controlan mediante interfaz gráfica;

Configuraciones del sistema o aplicaciones;

Fuentes de datos sin plugins o APIs;

Flujos que cruzan varias aplicaciones;

La última acción en una integración estructurada que falta;

puedes usar Uso de Computadora.

Modo de instalación: abre Configuración > Uso de Computadora en Codex y haz clic en Instalar.

Modo de activación: menciona @Computer, o pide explícitamente a Codex usar Uso de Computadora. Con la mejora del modelo, en el futuro también podrá activarse automáticamente cuando sea necesario.

Aquí algunos ejemplos:

Mi ejemplo favorito empezó porque un paquete fue robado. Amazon me dice que debo esperar unos 25 minutos para contactar con atención al cliente. Le paso un hilo a Codex con Uso de Computadora, para que revise la ventana de chat cada cinco minutos, y cuando aparezca el agente, cambie a revisar cada minuto, intentando conseguir mi reembolso. Cuando vuelvo de la ducha, el reembolso ya está hecho.

Usa @Computer para abrir Spotify, encontrar mi playlist Discover Weekly y reproducirla. No cambies mi cuenta ni configuraciones de suscripción. Usa @Computer para abrir Mirroring de iPhone, reproducir el bug de onboarding en la app de iOS y tomar una captura de pantalla del estado fallido. Corrige la ruta de código más pequeña relevante, y repite el flujo.

También uso Uso de Computadora como "última milla" en flujos estructurados. En una publicación de video, Codex puede leer feedback en Slack, modificar código y renderizar un nuevo video, pero en ese hilo la integración de Slack no permitía subir archivos. Entonces, Uso de Computadora hizo clic en Añadir archivo y completó ese paso faltante.

Es también la forma con el límite de confianza más amplio. Se le da un solo aplicativo o flujo claro a la vez. Cuando aplicaciones sensibles no son parte de la tarea, se mantiene cerrado; se revisan cuidadosamente las ventanas de permisos; y en casos de finanzas, cuentas, pagos, comprobantes, privacidad o cambios en seguridad del sistema, es mejor que alguien supervise en persona.

Uso de @Chrome para gestionar múltiples pestañas y sesiones de inicio

La extensión de Chrome de Codex permite acceder al estado de inicio de sesión en Chrome. Cuando la tarea depende de cuentas, cookies, perfiles del navegador, o pestañas ya abiertas y autenticadas, se debe usar esta opción.

Este interfaz es útil para trabajar en herramientas como:

Gmail o LinkedIn;

Salesforce o backend de atención al cliente;

Paneles internos;

Investigaciones en múltiples sitios ya autenticados;

Formularios que dependen de tu cuenta o extensiones del navegador.

Modo de instalación: abre Plugins en Codex, añade Chrome y sigue el proceso de configuración. Codex te guiará para instalar la extensión de Chrome de Codex y aprobar permisos. Cuando la extensión muestre "Conectado", inicia un nuevo hilo.

Modo de activación: menciona @Chrome, o pide explícitamente a Codex usar Chrome con tu sesión iniciada:

Usa @Chrome para revisar la cuenta de cliente abierta, compararla con el ticket de soporte en otra pestaña, y redactar los campos faltantes. Antes de enviar, detente.

Las tareas en Chrome se ejecutan en grupos de pestañas, lo que ayuda a mantener relacionadas las pestañas de un hilo de Codex. A diferencia del Navegador en la app, esta interfaz lleva tu identidad del navegador. Esto la hace más potente y sensible.

Otra ventaja importante es el control de múltiples pestañas. Chrome puede vincular varias pestañas a la misma tarea, leer contexto en una, cotejar información en otra, y continuar en una tercera. Uso de Computadora también puede controlar el navegador visualmente, pero Chrome entiende la tarea como un flujo de trabajo completo, no solo una serie de clics en coordenadas.

Recientemente, un hilo me llevó a una pestaña de Strudel Composer ya abierta, para que Codex mejorara la música. Chrome le proporcionó esa pestaña y la estructura WebMCP expuesta en ella. Codex analizó la estructura musical, reescribió armonías y la forma general de cuatro minutos, ajustó la velocidad, guardó la pieza y la reprodujo. No necesitó buscar controles visuales en la interfaz, porque Chrome combinó el contexto de la pestaña con la capacidad estructurada de la página.

También usé Chrome para un hilo largo en Twitter. La instrucción general fue:

Cada día, usa Chrome para revisar mis DMs, leer noticias relevantes y buscar feedback o menciones importantes. Añade todo duradero a mi bóveda. No publiques ni envíes mensajes.

Lo interesante no es que Codex pueda abrir Twitter, sino que este hilo puede volver a un entorno de trabajo autenticado y persistente, conectando contenidos encontrados con archivos locales y dejando un resultado para revisión.

El límite de confianza aquí es clave. Los sitios web pueden interpretar clics, envíos de formularios y mensajes como acciones tuyas. El contenido de la página también es entrada no confiable. Se deben distinguir claramente los pasos con mayor impacto: investigación, navegación y redacción pueden automatizarse; antes de enviar, publicar, comprar o confirmar, necesitas tu revisión.

Si toda la tarea se realiza en el navegador, prefiere Chrome en lugar de Uso de Computadora. Chrome tiene el contexto nativo del navegador que necesitas, sin ampliar el acceso al escritorio completo.

Modo de uso en la app @Browser para desarrollar tu sitio web

El Navegador en la app es un navegador dentro del hilo de Codex. Comparte la misma vista renderizada, por lo que es ideal para construir y depurar aplicaciones web.

Normalmente, aquí comienzo con:

Servidores locales de desarrollo;

Páginas de previsualización basadas en archivos;

Páginas públicas sin login;

Reproducción de bugs visuales;

Verificación de diseños responsivos;

Comentarios de diseño en elementos de la página.

Su restricción más importante es el aislamiento. El Navegador en la app no usa tu configuración, cookies, extensiones, sesiones o pestañas existentes del navegador habitual. Cuando la tarea requiere una cuenta, esto es una limitación; pero si no, es una frontera útil.

Modo de configuración: abre Plugins en Codex, añade el plugin de Navegador y actívalo.

Modo de activación: en la instrucción, menciona @Browser, o pide explícitamente a Codex usar el Navegador en la app:

Usa @Browser para abrir la app vite en http://localhost:3000/, reproducir el bug de desbordamiento móvil, corregirlo y verificar la misma ruta en anchos de escritorio y móvil.

Esto crea un ciclo de retroalimentación estrecho: Codex puede editar código, manipular la página, verificar renderizados, tomar capturas y volver a verificar tras arreglos.

Mi parte favorita son las anotaciones. Cuando reviso una app local, puedo hacer clic en un elemento, seleccionar una zona y dejar un comentario. Los controles de estilo también permiten previsualizar y comentar con mayor precisión textos, fuentes, espacios y colores. Normalmente, combino esto con entrada de voz y guía de proceso: reviso la página, dejo comentarios, y mientras Codex procesa el feedback, añado más ideas en cola. La página misma se vuelve una especificación.

Esto es especialmente útil para diseño. Pido a Codex que organice una idea, paquete de investigación o estado de proyecto en un solo archivo index.html, y lo abra en el Navegador en la app. En lugar de describir todo en otro prompt, puedo marcar directamente en la página: "esta jerarquía está invertida", "no pongas esto como tarjeta", "estos controles necesitan más espacio", o "todo el sitio con esta proporción de tamaño". Codex recibe comentarios con capturas y contexto, modifica el archivo y vuelve a abrirlo para la siguiente ronda.

Crea un index.html de un solo archivo para este resumen del proyecto y ábrelo en el @Browser en la app.

Este ciclo se asemeja más a trabajar en la misma lona con un diseñador, que a enviar capturas y textos de ida y vuelta.

El Navegador en la app también es útil como punto de partida para flujos híbridos. En otro hilo, abrí una publicación en X con el Navegador en la app, para que Codex investigara discusiones relacionadas. La página mostrada ayudó a confirmar qué hilo era, y luego Codex cambió a Twitter CLI, recuperando 38 respuestas, incluyendo respuestas anidadas ocultas en la vista del navegador. Esto ejemplifica el principio de "usar la interfaz más estrecha": primero confirmar el contexto en pantalla, luego hacer búsquedas más profundas con herramientas estructuradas.

También hay decisiones de diseño. La aislación del Navegador en la app lo hace excelente para desarrollo, pero no para sitios que requieran login en Google, passkeys o extensiones del navegador. Cuando la identidad es clave, mejor cambiar a Chrome.

Appshots

Appshot no es una cuarta forma de control de la computadora. Es un método para que Codex apunte y muestre el contexto visual en tu vista.

En Mac, presionando doble CMD, puedes capturar la ventana activa más reciente. Codex adjunta una imagen y todo texto disponible en el hilo. Puedes hacer Appshot de un error, un email, un diseño, un panel de configuración, o un formulario desconocido, y simplemente decir:

Este es el modelo mental más fácil de recordar: Appshots es la forma de señalar algo en la computadora; Browser, Chrome y Uso de Computadora son las formas en que Codex actúa.

Actualmente, los Appshots se crean con la app de Codex en macOS. Capturan la ventana activa, no todo el escritorio. Esto los hace muy útiles: puedes proporcionar un contexto enfocado sin dar control total sobre la aplicación.

Cómo seguir estos avances

Estas interfaces cambian rápidamente. Si quieres detalles prácticos, en lugar de esperar un resumen de lanzamiento:

Sigue a Ari Weinstein (@AriX) para novedades sobre Uso de Computadora y Appshots;

Sigue a James Sun (@JamesZmSun) para temas relacionados con Browser;

Sigue a Andrew Ambrosino (@ajambrosino) para lanzamientos de Codex y narrativas más amplias sobre productos de escritorio;

Sigue a OpenAI Developers (@OpenAIDevs) para noticias sobre Codex y la plataforma OpenAI.

[Enlace al original]

Haz clic para conocer las vacantes en Rhythm BlockBeats

Únete a la comunidad oficial de BlockBeats:

Telegram suscripción: https://t.me/theblockbeats

Telegram grupo: https://t.me/BlockBeats_App

Twitter oficial: https://twitter.com/BlockBeatsAsia

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado