De acordo com o relatório do Beating, o modelo de código aberto Phi-Ground pode gerar coordenadas de clique precisas após receber uma captura de tela com instruções de entrada. A versão de 4 bilhões de parâmetros, planejada por instruções, supera o OpenAI Operator, Claude Computer Use em benchmarks como Showdown, e lidera várias avaliações entre modelos similares. A equipe validou com 40 milhões de dados, descobrindo que escrever as coordenadas diretamente como números comuns é mais eficaz, e que inserir as instruções de texto antes da imagem permite uma leitura unidirecional da imagem. Além disso, aprimorou o desempenho em tarefas puramente visuais usando aprendizado reforçado DPO, e em cenários de telas de alta resolução, utilizou uma técnica de treinar colando capturas de tela reduzidas em uma tela branca, com efeitos notáveis em cenários como Photoshop.

BlockBeatNews

2026-05-10 04:21:00

Geração de resumo em curso

De acordo com o monitoramento Beating, a Microsoft open-soubeu a família de modelos Phi-Ground, especialmente para resolver o problema de “qual ponto da tela” ao controlar um computador com IA. Com uma captura de tela e uma instrução, o modelo fornece coordenadas de clique precisas. A versão de código aberto com 4 bilhões de parâmetros, combinada com um grande modelo para planejamento de instruções, superou a precisão de clique nos testes de referência Showdown, ultrapassando o OpenAI Operator e o Claude Computer Use, além de conquistar o primeiro lugar em cinco avaliações, incluindo ScreenSpot-Pro, todas abaixo de 10 bilhões de parâmetros.

A equipe realizou uma validação em larga escala com mais de 40 milhões de dados e descobriu que as três técnicas de treinamento comumente usadas em artigos acadêmicos deixaram de funcionar após o aumento do volume de dados. A abordagem realmente eficaz é simples: os coordenadas são diretamente tratadas como números comuns, por exemplo, “523, 417”. Diversos artigos anteriores criaram um vocabulário de posições específico para coordenadas, na esperança de fazer o modelo falar as coordenadas como palavras, mas durante o treinamento em grande escala, essas novas palavras não foram aprendidas corretamente, causando até falhas no modelo. Outro ponto-chave é colocar as instruções de texto antes da entrada da imagem. Como o grande modelo lê as informações de forma unidirecional, ao primeiro ler “clique no ícone de configurações azul” e depois ver a imagem, ele já sabe o que procurar ao processar os pixels; ao contrário, ao primeiro olhar a imagem, o modelo só faz uma varredura cega, resultando em desempenho muito inferior.

A equipe também descobriu que o aprendizado por reforço é útil para tarefas puramente visuais. A técnica consiste em fazer o modelo prever múltiplos cliques na mesma imagem, selecionando os pontos corretos e incorretos para treinar por comparação (essa técnica é chamada DPO, uma forma de aprendizado por reforço). Mesmo após um ajuste fino completo, essa etapa ainda melhora significativamente a precisão. Antes, o aprendizado por reforço era usado principalmente em tarefas de linguagem que exigem raciocínio, mas agora também funciona em tarefas de percepção puramente de “olhar a imagem e apontar”, o que foi uma surpresa. Para resolver o problema de botões muito pequenos em telas 4K (um botão pode ocupar apenas 0,07% da área da tela), a equipe, durante o treinamento, reduziu proporcionalmente as capturas de tela e as colou em uma grande tela de fundo branca, simulando cenários reais onde elementos são extremamente pequenos em telas de alta resolução. Essa técnica mostrou-se especialmente eficaz em softwares profissionais complexos como o Photoshop.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.08M Popularidade
#
BTCBackAbove80K
59.46M Popularidade
#
IsraelStrikesIranBTCPlunges
45.68K Popularidade
#
JapanTokenizesGovernmentBonds
1.92M Popularidade
#
#DailyPolymarketHotspot
872.77K Popularidade

Fixar

Microsoft abre o código aberto Phi-Ground: precisão de clique com 4 bilhões de parâmetros superou Operator e Claude

Tópicos em destaque

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Fixar