Microsoft lança o primeiro modelo de agente inteligente controlado por computador com 7 bilhões de parâmetros, Fara-7B

robot
Geração do resumo em andamento
AIMPACT mensagem, 16 de maio (UTC+8), a Microsoft lançou o Fara-7B, seu primeiro modelo de linguagem inteligente de 7 bilhões de parâmetros projetado especificamente para cenários de uso em computadores.
O modelo utiliza uma arquitetura de decodificador multimodal, capaz de receber imagens de captura de tela e contexto de texto, prevendo diretamente cadeias de pensamento parametrizadas e ações operacionais.
Construído com base no Qwen 2.5-VL (7B), suporta um comprimento de contexto de 128k, treinado por 2,5 dias em 64 GPUs H100, lançado sob licença MIT em 24 de novembro de 2025.
O Fara-7B percebe entradas do navegador por captura de tela, combinando raciocínio interno e registro de estado histórico para prever a próxima ação e seus parâmetros (como coordenadas de clique), dependendo de um grande conjunto de dados sintéticos completos para treinamento.
O modelo consegue planejar e executar tarefas avançadas (como reservar restaurantes, solicitar empregos, planejar viagens, etc.).
No que diz respeito ao alinhamento de segurança, utiliza métodos de treinamento robusto posterior, possui capacidade de reconhecimento de pontos-chave, consegue rejeitar sete categorias de tarefas que violem políticas de uso e pausa operações ao detectar entrada de informações pessoais, conclusão de compras e outros pontos críticos.
Os usuários podem implantar e interagir por meio de repositórios no GitHub, vllm e a ferramenta fara-cli, sendo principalmente aplicado em tarefas automatizadas na web.
(Origem: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • 3
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
AirdropNightwatch
· 5h atrás
Na área de automação de navegador, sinto que vai ter que competir de frente com Browser-use e Computer-use.
Ver originalResponder0
MintCondition
· 6h atrás
Automação de tarefas de página web, finalmente não preciso mais escrever um monte de seletores
Ver originalResponder0
SaveABitOnGasFees
· 6h atrás
Qual foi a proporção de dados usada para o alinhamento pós-treinamento? O artigo será divulgado em breve.
Ver originalResponder0
GateUser-83c80dd0
· 6h atrás
7B parâmetros para planejamento de agentes, leve, mas a fronteira de capacidade precisa ser testada
Ver originalResponder0
GateUser-bee672a5
· 6h atrás
fara-cli experiência de implantação aguardando testes, espero que não seja como alguns projetos com documentação ruim
Ver originalResponder0
Half-SectionSucculent
· 6h atrás
Previsão de coordenadas + cadeia de pensamento, controle de granularidade fina é muito mais forte do que API de texto puro
Ver originalResponder0
0xLateCoffee
· 6h atrás
128k de contexto + percepção de captura de tela, essa combinação é interessante
Ver originalResponder0
CandleChaser
· 6h atrás
Aprovação positiva da licença MIT, 7B consegue rodar localmente
Ver originalResponder0