Microsoft abre o código aberto Phi-Ground: precisão de clique com 4 bilhões de parâmetros superou Operator e Claude

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a Microsoft open-soubeu a família de modelos Phi-Ground, especialmente para resolver o problema de “qual ponto da tela” ao controlar um computador com IA. Com uma captura de tela e uma instrução, o modelo fornece coordenadas de clique precisas. A versão de código aberto com 4 bilhões de parâmetros, combinada com um grande modelo para planejamento de instruções, superou a precisão de clique nos testes de referência Showdown, ultrapassando o OpenAI Operator e o Claude Computer Use, além de conquistar o primeiro lugar em cinco avaliações, incluindo ScreenSpot-Pro, todas abaixo de 10 bilhões de parâmetros.

A equipe realizou uma validação em larga escala com mais de 40 milhões de dados e descobriu que as três técnicas de treinamento comumente usadas em artigos acadêmicos deixaram de funcionar após o aumento do volume de dados. A abordagem realmente eficaz é simples: os coordenadas são diretamente tratadas como números comuns, por exemplo, “523, 417”. Diversos artigos anteriores criaram um vocabulário de posições específico para coordenadas, na esperança de fazer o modelo falar as coordenadas como palavras, mas durante o treinamento em grande escala, essas novas palavras não foram aprendidas corretamente, causando até falhas no modelo. Outro ponto-chave é colocar as instruções de texto antes da entrada da imagem. Como o grande modelo lê as informações de forma unidirecional, ao primeiro ler “clique no ícone de configurações azul” e depois ver a imagem, ele já sabe o que procurar ao processar os pixels; ao contrário, ao primeiro olhar a imagem, o modelo só faz uma varredura cega, resultando em desempenho muito inferior.

A equipe também descobriu que o aprendizado por reforço é útil para tarefas puramente visuais. A técnica consiste em fazer o modelo prever múltiplos cliques na mesma imagem, selecionando os pontos corretos e incorretos para treinar por comparação (essa técnica é chamada DPO, uma forma de aprendizado por reforço). Mesmo após um ajuste fino completo, essa etapa ainda melhora significativamente a precisão. Antes, o aprendizado por reforço era usado principalmente em tarefas de linguagem que exigem raciocínio, mas agora também funciona em tarefas de percepção puramente de “olhar a imagem e apontar”, o que foi uma surpresa. Para resolver o problema de botões muito pequenos em telas 4K (um botão pode ocupar apenas 0,07% da área da tela), a equipe, durante o treinamento, reduziu proporcionalmente as capturas de tela e as colou em uma grande tela de fundo branca, simulando cenários reais onde elementos são extremamente pequenos em telas de alta resolução. Essa técnica mostrou-se especialmente eficaz em softwares profissionais complexos como o Photoshop.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar