Microsoft open-source Phi-Ground : 4 milliards de paramètres, la précision de clics a surpassé Operator et Claude

robot
Création du résumé en cours

Selon le suivi Beating, Microsoft a open source la famille de modèles Phi-Ground, spécialement conçue pour résoudre le problème « où cliquer sur cet écran » lors de la manipulation de l’IA. En fournissant une capture d’écran et une instruction, le modèle génère des coordonnées de clic précises. La version open source de 4 milliards de paramètres, combinée à un grand modèle pour la planification des instructions, a dépassé la précision de clic de l’OpenAI Operator et de Claude Computer Use dans le benchmark Showdown, et a remporté la première place dans toutes les cinq évaluations, y compris ScreenSpot-Pro, pour des modèles de moins de 100 milliards de paramètres.

L’équipe a effectué une validation à grande échelle avec plus de 40 millions de données, découvrant que les trois techniques d’entraînement couramment utilisées dans les articles académiques précédents deviennent inefficaces lorsque la quantité de données augmente. La méthode réellement efficace est très simple : traiter les coordonnées comme des nombres ordinaires, par exemple « 523, 417 ». Plusieurs articles précédents ont inventé un vocabulaire spécifique pour les coordonnées, espérant que le modèle parlerait des coordonnées comme des mots, mais lors de l’entraînement à grande échelle, ces nouveaux mots ne s’apprennent pas bien et provoquent même des défaillances du modèle. Un autre point clé est de placer l’instruction textuelle avant l’image lors de l’entrée. Les grands modèles lisent l’information de manière unidirectionnelle : ils lisent d’abord « cliquer sur l’icône de réglage bleu » puis regardent l’image, ce qui leur permet de savoir ce qu’il faut chercher lors du traitement des pixels ; à l’inverse, regarder d’abord l’image ne fait que balayer aveuglément, ce qui réduit considérablement l’efficacité.

L’équipe a également découvert que l’apprentissage par renforcement est utile pour les tâches purement visuelles. La méthode consiste à faire plusieurs prédictions de clics sur la même image, puis à comparer les résultats corrects et incorrects pour entraîner le modèle (cette méthode s’appelle DPO, une forme d’apprentissage par renforcement). Même après un ajustement fin complet du modèle, cette étape peut améliorer significativement la précision. Jusqu’ici, l’apprentissage par renforcement était principalement utilisé pour des tâches linguistiques nécessitant du raisonnement, mais le voir fonctionner dans des tâches de perception purement « regarder une image et cliquer » est une surprise. Pour résoudre le problème des boutons trop petits sur les écrans 4K (un bouton pouvant ne représenter que 0,07 % de la surface de l’écran), l’équipe a réduit proportionnellement la capture d’écran, puis l’a collée sur une grande toile blanche pour simuler un scénario où les éléments sont extrêmement petits sur un écran haute résolution. Cette technique est particulièrement efficace sur des logiciels complexes comme Photoshop.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler