De acordo com Beating, a Microsoft recentemente open-soube a família de modelos Phi-Ground, com o objetivo de resolver a questão de “onde a IA deve clicar na tela do computador”. Esta versão de 4 bilhões de parâmetros, combinada com um modelo de linguagem maior utilizado para planejamento de instruções, superou a precisão de clique do OpenAI Operator e do Claude Computer Use no teste de referência Showdown, e ficou em primeiro lugar em cinco avaliações, incluindo ScreenSpot-Pro, entre todos os modelos com menos de 10 bilhões de parâmetros. A equipe treinou com mais de 40 milhões de amostras de dados e descobriu que as três técnicas de treinamento comuns usadas em artigos acadêmicos tornam-se ineficazes em escala. A ideia principal é simples: usar coordenadas numéricas convencionais, como “523, 417”. Pesquisas anteriores criaram vocabulários específicos para posições, mas esses métodos não escalam bem. A equipe também descobriu que colocar comandos de texto antes da imagem pode melhorar o desempenho, pois o modelo consegue reconhecer o alvo ao processar pixels. Além disso, métodos de reforço por aprendizado, como DPO, ainda podem aumentar a precisão após o ajuste fino.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar