Selon le rapport de Beating, le modèle open source Phi-Ground peut produire des coordonnées de clic précises après avoir reçu une capture d'écran avec une instruction. La version à 4 milliards de paramètres, planifiée par instruction, dépasse OpenAI Operator, Claude Computer Use dans des benchmarks comme Showdown, et devance d'autres modèles similaires dans plusieurs évaluations. L'équipe a vérifié avec 40 millions de données, découvrant que l'écriture directe des coordonnées en chiffres ordinaires est la méthode la plus efficace, et que placer l'instruction textuelle avant l'image permet une lecture unidirectionnelle. Ils ont également amélioré la performance des tâches purement visuelles par apprentissage par renforcement DPO, et dans des scénarios à écran haute résolution, en collant des captures d'écran réduites sur une toile blanche lors de l'entraînement, avec des effets remarquables dans des applications comme Photoshop.

BlockBeatNews

2026-05-10 04:21:00

Création du résumé en cours

Selon le suivi Beating, Microsoft a open source la famille de modèles Phi-Ground, spécialement conçue pour résoudre le problème « où cliquer sur cet écran » lors de la manipulation de l’IA. En fournissant une capture d’écran et une instruction, le modèle génère des coordonnées de clic précises. La version open source de 4 milliards de paramètres, combinée à un grand modèle pour la planification des instructions, a dépassé la précision de clic de l’OpenAI Operator et de Claude Computer Use dans le benchmark Showdown, et a remporté la première place dans toutes les cinq évaluations, y compris ScreenSpot-Pro, pour des modèles de moins de 100 milliards de paramètres.

L’équipe a effectué une validation à grande échelle avec plus de 40 millions de données, découvrant que les trois techniques d’entraînement couramment utilisées dans les articles académiques précédents deviennent inefficaces lorsque la quantité de données augmente. La méthode réellement efficace est très simple : traiter les coordonnées comme des nombres ordinaires, par exemple « 523, 417 ». Plusieurs articles précédents ont inventé un vocabulaire spécifique pour les coordonnées, espérant que le modèle parlerait des coordonnées comme des mots, mais lors de l’entraînement à grande échelle, ces nouveaux mots ne s’apprennent pas bien et provoquent même des défaillances du modèle. Un autre point clé est de placer l’instruction textuelle avant l’image lors de l’entrée. Les grands modèles lisent l’information de manière unidirectionnelle : ils lisent d’abord « cliquer sur l’icône de réglage bleu » puis regardent l’image, ce qui leur permet de savoir ce qu’il faut chercher lors du traitement des pixels ; à l’inverse, regarder d’abord l’image ne fait que balayer aveuglément, ce qui réduit considérablement l’efficacité.

L’équipe a également découvert que l’apprentissage par renforcement est utile pour les tâches purement visuelles. La méthode consiste à faire plusieurs prédictions de clics sur la même image, puis à comparer les résultats corrects et incorrects pour entraîner le modèle (cette méthode s’appelle DPO, une forme d’apprentissage par renforcement). Même après un ajustement fin complet du modèle, cette étape peut améliorer significativement la précision. Jusqu’ici, l’apprentissage par renforcement était principalement utilisé pour des tâches linguistiques nécessitant du raisonnement, mais le voir fonctionner dans des tâches de perception purement « regarder une image et cliquer » est une surprise. Pour résoudre le problème des boutons trop petits sur les écrans 4K (un bouton pouvant ne représenter que 0,07 % de la surface de l’écran), l’équipe a réduit proportionnellement la capture d’écran, puis l’a collée sur une grande toile blanche pour simuler un scénario où les éléments sont extrêmement petits sur un écran haute résolution. Cette technique est particulièrement efficace sur des logiciels complexes comme Photoshop.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.05M Popularité
#
BTCBackAbove80K
59.45M Popularité
#
IsraelStrikesIranBTCPlunges
45.63K Popularité
#
JapanTokenizesGovernmentBonds
1.9M Popularité
#
#DailyPolymarketHotspot
871.95K Popularité

Épingler

Microsoft open-source Phi-Ground : 4 milliards de paramètres, la précision de clics a surpassé Operator et Claude

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler