Microsoft abre código abierto Phi-Ground: precisión en clics con 4 mil millones de parámetros supera a Operator y Claude

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Microsoft ha abierto el código de la familia de modelos Phi-Ground, especializados en resolver el problema de “¿dónde en la pantalla” cuando la IA controla una computadora. Con una captura de pantalla y una instrucción, el modelo genera coordenadas de clic precisas. La versión de código abierto con 4 mil millones de parámetros, combinada con un gran modelo para planificación de instrucciones, supera en precisión de clics en la prueba de referencia Showdown a OpenAI Operator y Claude Computer Use, y obtiene el primer lugar en cinco evaluaciones, incluyendo ScreenSpot-Pro, todas ellas con menos de 100 mil millones de parámetros.

El equipo realizó una validación a gran escala con más de 40 millones de datos, y descubrió que las tres técnicas de entrenamiento comúnmente usadas en artículos académicos anteriores dejan de ser efectivas cuando aumenta la cantidad de datos. La estrategia realmente efectiva es muy simple: los coordenadas se deben tratar como números normales, por ejemplo, “523, 417”. Varias publicaciones anteriores inventaron un vocabulario de posiciones específico para las coordenadas, esperando que el modelo las diga como palabras, pero en entrenamiento a gran escala estas nuevas palabras no se aprenden bien y, en cambio, causan fallos en el modelo. Otro aspecto clave es poner las instrucciones de texto antes de la imagen en la entrada. Los grandes modelos leen la información en una sola dirección: primero leen “haz clic en el icono de configuración azul” y luego ven la imagen, por lo que ya saben qué buscar al procesar los píxeles; en cambio, si primero ven la imagen, el modelo solo escanea de forma ciega, lo que reduce mucho la precisión.

El equipo también descubrió que el aprendizaje por refuerzo es útil incluso para tareas puramente visuales. La técnica consiste en hacer que el modelo prediga múltiples clics en la misma imagen, y entrenar comparando los resultados correctos e incorrectos (este método se llama DPO, y es una forma de aprendizaje por refuerzo). Incluso después de un ajuste fino completo, esta técnica puede mejorar significativamente la precisión. Hasta ahora, el aprendizaje por refuerzo se usaba principalmente en tareas de razonamiento en lenguaje, pero aquí se ha demostrado que también funciona en tareas de percepción puras como “mirar la imagen y señalar”, lo cual es una sorpresa. Para abordar el problema de botones demasiado pequeños en pantallas 4K (un botón puede ocupar solo el 0.07% del área de la pantalla), el equipo durante el entrenamiento redujo proporcionalmente la captura de pantalla y la pegó en un lienzo grande con fondo blanco, simulando escenarios reales donde los elementos son extremadamente pequeños en pantallas de alta resolución. Esta técnica es especialmente efectiva en software profesional complejo como Photoshop.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado