Microsoft abre código abierto Phi-Ground: precisión en clics con 4 mil millones de parámetros supera a Operator y Claude

robot
Generación de resúmenes en curso

Noticias de CoinWorld, Microsoft ha abierto el código de la familia de modelos Phi-Ground, diseñada específicamente para resolver el problema de “¿en qué parte de la pantalla” cuando la IA controla una computadora. La versión de 4 mil millones de parámetros de código abierto alcanzó una precisión de clics superior a la de Operator de OpenAI y Claude en la prueba de referencia Showdown, y obtuvo el primer lugar en cinco evaluaciones, incluyendo Screenspot-Pro, en todas las categorías por debajo de los 10 mil millones de parámetros. El equipo realizó una validación a gran escala con más de 40 millones de datos y descubrió que las tres técnicas de entrenamiento comúnmente usadas en artículos académicos anteriores fallaron completamente cuando se aumentó la volumen de datos. La práctica efectiva es tratar las coordenadas como números normales, por ejemplo, “523, 417”. También descubrieron que el aprendizaje por refuerzo es útil incluso para tareas puramente visuales, mediante hacer que el modelo prediga múltiples clics en la misma imagen y comparar los resultados correctos e incorrectos para entrenar. Para abordar el problema de botones demasiado pequeños en pantallas 4K de alta resolución, durante el entrenamiento el equipo redujo proporcionalmente las capturas de pantalla y las colocó en un gran lienzo de fondo blanco, simulando escenarios reales donde los elementos son extremadamente pequeños en pantallas de alta resolución. Esta técnica es especialmente efectiva en software complejo y profesional como Photoshop.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado