Fara-7B usa captura de tela + texto para prever diretamente as coordenadas de clique, equivalente a dar ao AI olhos e mãos, licença MIT de código aberto é ainda mais poderosa.

Ver original
MeNews
A Microsoft lançou o primeiro modelo de agente inteligente controlado por computador com 7B de parâmetros, Fara-7B
Microsoft lançou o Fara-7B, um agente multimodal de 7 bilhões de parâmetros, projetado especificamente para cenários de uso de computador. Pode processar simultaneamente capturas de tela e texto, prever diretamente cadeias de pensamento com parâmetros e ações operacionais, construído com base no Qwen 2.5-VL, com contexto de 128k, treinado em 64 blocos H100 por 2,5 dias, lançado sob licença MIT. Ele percebe entradas do navegador através de capturas de tela, combinando raciocínio e previsão de estado histórico para determinar a próxima ação e parâmetros como coordenadas, dependendo de dados sintéticos em grande escala. Possui capacidade de planejar e executar tarefas avançadas, e utiliza alinhamento de segurança robusto após o treinamento, podendo recusar tarefas inadequadas e pausar em pontos críticos. Pode ser implantado e interagido via GitHub, vllm, fara-cli, sendo utilizado para automação de tarefas web.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado