Según el informe de 动察Beating, el modelo de código abierto Phi-Ground puede generar coordenadas de clic precisas después de recibir instrucciones en la captura de pantalla. La versión de 4 mil millones de parámetros, basada en planificación de instrucciones, supera a OpenAI Operator, Claude Computer Use en benchmarks como Showdown, y lidera en varias evaluaciones en comparación con modelos similares. El equipo validó con 40 millones de datos y descubrió que escribir las coordenadas directamente como números normales es lo más efectivo, además de colocar las instrucciones en texto antes de la imagen para lograr una lectura unidireccional de la imagen. También mejoraron el rendimiento en tareas puramente visual mediante aprendizaje reforzado DPO, y en escenarios de pantallas de alta resolución, usaron métodos de entrenamiento con capturas de pantalla reducidas pegadas en un lienzo blanco, logrando efectos notables en Photoshop y otros entornos.

BlockBeatNews

2026-05-10 04:21:00

Generación de resúmenes en curso

Según la monitorización de Beating, Microsoft ha abierto el código de la familia de modelos Phi-Ground, especializados en resolver el problema de “¿dónde en la pantalla” cuando la IA controla una computadora. Con una captura de pantalla y una instrucción, el modelo genera coordenadas de clic precisas. La versión de código abierto con 4 mil millones de parámetros, combinada con un gran modelo para planificación de instrucciones, supera en precisión de clics en la prueba de referencia Showdown a OpenAI Operator y Claude Computer Use, y obtiene el primer lugar en cinco evaluaciones, incluyendo ScreenSpot-Pro, todas ellas con menos de 100 mil millones de parámetros.

El equipo realizó una validación a gran escala con más de 40 millones de datos, y descubrió que las tres técnicas de entrenamiento comúnmente usadas en artículos académicos anteriores dejan de ser efectivas cuando aumenta la cantidad de datos. La estrategia realmente efectiva es muy simple: los coordenadas se deben tratar como números normales, por ejemplo, “523, 417”. Varias publicaciones anteriores inventaron un vocabulario de posiciones específico para las coordenadas, esperando que el modelo las diga como palabras, pero en entrenamiento a gran escala estas nuevas palabras no se aprenden bien y, en cambio, causan fallos en el modelo. Otro aspecto clave es poner las instrucciones de texto antes de la imagen en la entrada. Los grandes modelos leen la información en una sola dirección: primero leen “haz clic en el icono de configuración azul” y luego ven la imagen, por lo que ya saben qué buscar al procesar los píxeles; en cambio, si primero ven la imagen, el modelo solo escanea de forma ciega, lo que reduce mucho la precisión.

El equipo también descubrió que el aprendizaje por refuerzo es útil incluso para tareas puramente visuales. La técnica consiste en hacer que el modelo prediga múltiples clics en la misma imagen, y entrenar comparando los resultados correctos e incorrectos (este método se llama DPO, y es una forma de aprendizaje por refuerzo). Incluso después de un ajuste fino completo, esta técnica puede mejorar significativamente la precisión. Hasta ahora, el aprendizaje por refuerzo se usaba principalmente en tareas de razonamiento en lenguaje, pero aquí se ha demostrado que también funciona en tareas de percepción puras como “mirar la imagen y señalar”, lo cual es una sorpresa. Para abordar el problema de botones demasiado pequeños en pantallas 4K (un botón puede ocupar solo el 0.07% del área de la pantalla), el equipo durante el entrenamiento redujo proporcionalmente la captura de pantalla y la pegó en un lienzo grande con fondo blanco, simulando escenarios reales donde los elementos son extremadamente pequeños en pantallas de alta resolución. Esta técnica es especialmente efectiva en software profesional complejo como Photoshop.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.09M Popularidad
#
BTCBackAbove80K
59.46M Popularidad
#
IsraelStrikesIranBTCPlunges
45.71K Popularidad
#
JapanTokenizesGovernmentBonds
1.92M Popularidad
#
#DailyPolymarketHotspot
874.14K Popularidad

Anclado

Microsoft abre código abierto Phi-Ground: precisión en clics con 4 mil millones de parámetros supera a Operator y Claude

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado