Fara-7B usa captura de tela + texto para prever diretamente as coordenadas de clique, equivalente a equipar a IA com olhos e mãos, e a licença MIT para código aberto é ainda mais poderosa.

Ver original
MeNews
Microsoft lança o primeiro modelo de agente inteligente controlado por computador com 7 bilhões de parâmetros, Fara-7B
Microsoft lançou o Fara-7B, um agente inteligente multimodal de 7 bilhões de parâmetros, projetado especificamente para cenários de uso de computador. Pode processar simultaneamente capturas de tela e texto, prever diretamente cadeias de pensamento com parâmetros e ações operacionais, construído com base no Qwen 2.5-VL, com contexto de 128k, treinado em 64 blocos H100 por 2,5 dias, lançado sob licença MIT. Ele percebe entradas do navegador por meio de capturas de tela, combina raciocínio e previsão de estado histórico para determinar a próxima ação e parâmetros como coordenadas, dependendo de um grande volume de dados totalmente sintéticos. Possui capacidade de planejar e executar tarefas avançadas, além de usar alinhamento de segurança robusto após o treinamento, podendo recusar tarefas inadequadas e pausar em pontos críticos. Pode ser implantado e interagido via GitHub, vllm, fara-cli, sendo utilizado para automação de tarefas na web.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado