Microsoft abre código aberto Phi-Ground: precisão de clique com 4 bilhões de parâmetros superou Operator e Claude

robot
Geração de resumo em curso

Notícias do site Coinjie, a Microsoft open-sourou a família de modelos Phi-Ground, especialmente para resolver o problema de “qual ponto da tela” ao controlar um computador com IA. A versão de 4 bilhões de parâmetros de código aberto obteve uma precisão de clique superior à do Operator da OpenAI e do Claude no teste de referência Showdown, além de conquistar o primeiro lugar em todas as cinco avaliações, incluindo Screenspot-Pro, abaixo de 10 bilhões de parâmetros. A equipe realizou uma validação em larga escala com mais de 40 milhões de dados e descobriu que as três técnicas de treinamento comumente usadas em artigos acadêmicos anteriores deixaram de ser eficazes após o aumento do volume de dados. A abordagem eficaz é tratar as coordenadas como números comuns, por exemplo, “523, 417”. A equipe também descobriu que o aprendizado por reforço é útil para tarefas puramente visuais, fazendo o modelo prever múltiplos cliques na mesma imagem e comparando os resultados corretos e incorretos para treinar. Para resolver o problema de botões muito pequenos em telas 4K de alta resolução, a equipe, durante o treinamento, reduzia proporcionalmente as capturas de tela e as colava em uma grande tela de fundo branca, simulando o cenário real de elementos extremamente pequenos em telas de alta resolução. Essa técnica mostrou-se especialmente eficaz em softwares complexos profissionais como Photoshop.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar