A Microsoft lançou o primeiro modelo de agente inteligente controlado por computador com 7B de parâmetros, Fara-7B

robot
Geração de resumo em curso
AIMPACT mensagem, 16 de maio (UTC+8), a Microsoft lançou o Fara-7B, seu primeiro modelo de linguagem inteligente de 7B parâmetros projetado especificamente para cenários de uso de computador.
Este modelo utiliza uma arquitetura de decodificador multimodal, capaz de receber imagens de captura de tela e contexto de texto, prevendo diretamente cadeias de pensamento parametrizadas e ações operacionais.
Construído com base no Qwen 2.5-VL (7B), suporta um comprimento de contexto de 128k, treinado por 2,5 dias em 64 GPUs H100, lançado sob licença MIT em 24 de novembro de 2025.
O Fara-7B percebe entradas do navegador por captura de tela, combinando raciocínio interno e registro de estado histórico para prever a próxima ação e seus parâmetros (como coordenadas de clique), dependendo de um grande conjunto de dados sintéticos completos para treinamento.
O modelo consegue planejar e executar tarefas avançadas (como reservar restaurantes, solicitar empregos, planejar viagens, etc.).
No que diz respeito ao alinhamento de segurança, utiliza métodos de treinamento pós-robustos, possui capacidade de reconhecimento de pontos-chave, consegue rejeitar sete categorias de tarefas que violem políticas de uso e pausa operações em pontos críticos, como entrada de informações pessoais ou finalização de compras.
Os usuários podem implantar e interagir por meio de repositórios no GitHub, vllm e a ferramenta fara-cli, sendo principalmente aplicado em tarefas automatizadas na web.
(Origem: InFoQ)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 10
  • 3
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-16838403
· 3m atrás
Período de treino de 2,5 dias, a eficiência da Microsoft é um pouco assustadora
Ver originalResponder0
GateUser-53a6e1a8
· 4h atrás
O alinhamento de segurança pode recusar tarefas que violem as regras, o que é mais confiável do que o AutoGPT.
Ver originalResponder0
TheBluePeony'sProphecy
· 4h atrás
Qwen 2.5-VL tem uma base sólida, mas a corrida no segmento de Agentes multimodais está insana
Ver originalResponder0
SeaSaltFlavorAirdrop
· 4h atrás
Na área de automação de páginas web, os híbridos de Playwright+LLM vão ficar desempregados
Ver originalResponder0
GateUser-4bd1cc87
· 4h atrás
Aprovação da licença MIT, 7B de parâmetros consegue rodar localmente
Ver originalResponder0
GlassCityAfterTheRain
· 4h atrás
fara-cli é fácil de implementar? Existe uma imagem Docker disponível?
Ver originalResponder0
GateUser-8da82d63
· 4h atrás
Treinamento com dados sintéticos completos, capacidade de generalização duvidosa, aguardando testes práticos
Ver originalResponder0
LateAlphaCourier
· 4h atrás
128k de contexto deve ser suficiente para eu colocar toda a página web dentro dela.
Ver originalResponder0
AirdropUnderTheNeonBridge
· 4h atrás
Captura de tela + texto para previsão direta de coordenadas, automação do navegador vai mudar radicalmente
Ver originalResponder0
CandleChaser
· 4h atrás
64 placas H100 treinadas por dois dias e meio, não consigo calcular esse custo
Ver originalResponder0
Ver mais