Según Beating, Microsoft ha abierto recientemente el código del familia de modelos Phi-Ground, con el objetivo de resolver el problema de "dónde debe hacer clic la IA en la pantalla de la computadora". Esta versión de 4 mil millones de parámetros, combinada con un modelo de lenguaje más grande para la planificación de instrucciones, superó en precisión de clics a OpenAI Operator y Claude Computer Use en la prueba de referencia Showdown, y ocupó el primer lugar entre todos los modelos con menos de 10 mil millones de parámetros en cinco evaluaciones, incluyendo ScreenSpot-Pro. El equipo entrenó en más de 40 millones de muestras de datos y descubrió que las tres técnicas de entrenamiento comunes utilizadas en artículos académicos se vuelven ineficaces a gran escala. La idea clave es simple: usar coordenadas numéricas convencionales para la salida, como "523, 417". Investigaciones anteriores inventaron vocabulario específico para las posiciones, pero estos métodos no escalan. También descubrieron que poner las instrucciones de texto antes de la imagen puede mejorar el rendimiento, ya que el modelo puede reconocer objetivos al procesar píxeles. Además, métodos de aprendizaje por refuerzo como DPO aún pueden mejorar la precisión después del ajuste fino.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado