Microsoft lançou o Fara-7B, um agente inteligente multimodal de 7 bilhões de parâmetros, projetado especificamente para cenários de uso de computador. Pode processar simultaneamente capturas de tela e texto, prever diretamente cadeias de pensamento com parâmetros e ações operacionais, construído com base no Qwen 2.5-VL, com contexto de 128k, treinado em 64 blocos H100 por 2,5 dias, lançado sob licença MIT. Ele percebe entradas do navegador por meio de capturas de tela, combina raciocínio e previsão de estado histórico para determinar a próxima ação e parâmetros como coordenadas, dependendo de um grande volume de dados totalmente sintéticos. Possui capacidade de planejar e executar tarefas avançadas, além de usar alinhamento de segurança robusto após o treinamento, podendo recusar tarefas inadequadas e pausar em pontos críticos. Pode ser implantado e interagido via GitHub, vllm, fara-cli, sendo utilizado para automação de tarefas na web.

MeNews

2026-05-27 04:06:37

Geração do resumo em andamento

AIMPACT mensagem, 16 de maio (UTC+8), a Microsoft lançou o Fara-7B, seu primeiro modelo de linguagem inteligente de 7 bilhões de parâmetros projetado especificamente para cenários de uso de computador.
O modelo utiliza uma arquitetura de decodificador multimodal, capaz de receber imagens de captura de tela e contexto de texto, prevendo diretamente cadeias de pensamento parametrizadas e ações operacionais.
Construído com base no Qwen 2.5-VL (7B), suporta um comprimento de contexto de 128k, treinado por 2,5 dias em 64 GPUs H100, lançado sob licença MIT em 24 de novembro de 2025.
O Fara-7B percebe entradas do navegador por captura de tela, combinando raciocínio interno e registro de estado histórico para prever a próxima ação e seus parâmetros (como coordenadas de clique), dependendo de um grande conjunto de dados sintéticos completos para treinamento.
O modelo consegue planejar e executar tarefas avançadas (como reservar restaurantes, solicitar empregos, planejar viagens, etc.).
No que diz respeito ao alinhamento de segurança, utiliza métodos de treinamento robusto posterior, possui capacidade de reconhecimento de pontos-chave, consegue rejeitar sete categorias de tarefas que violem políticas de uso e pausa operações em pontos críticos, como entrada de informações pessoais ou finalização de compras.
Os usuários podem implantar e interagir por meio de repositórios no GitHub, vllm e a ferramenta fara-cli, sendo principalmente aplicado em tarefas automatizadas na web.
(Origem: InFoQ)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

12 Curtidas

Recompensa
12
10
3
Compartilhar

Comentário

Adicionar um comentário

GateUser-16838403

· 2h atrás

Período de treinamento de 2,5 dias, essa eficiência da Microsoft é um pouco assustadora

Ver originalResponder0

GateUser-53a6e1a8

· 6h atrás

O alinhamento de segurança pode recusar tarefas que violam as regras, essa é uma característica mais confiável do que o AutoGPT.

Ver originalResponder0

TheBluePeony'sProphecy

· 6h atrás

Qwen 2.5-VL tem uma base sólida, mas a pista de Agentes Multimodais está pegando fogo.

Ver originalResponder0

SeaSaltFlavorAirdrop

· 6h atrás

Na área de automação de páginas web, os "monstros de costura" de Playwright+LLM vão ficar desempregados

Ver originalResponder0

GateUser-4bd1cc87

· 6h atrás

Aprovação do MIT License, 7B de parâmetros podem rodar localmente

Ver originalResponder0

GlassCityAfterTheRain

· 6h atrás

fara-cli é fácil de implantar? Tem uma imagem Docker?

Ver originalResponder0

GateUser-8da82d63

· 6h atrás

Treinamento com dados sintéticos completos, capacidade de generalização duvidosa, aguardando testes práticos

Ver originalResponder0

LateAlphaCourier

· 6h atrás

128k de contexto deve ser suficiente para eu colocar toda a página da web dentro dela, certo?

Ver originalResponder0

AirdropUnderTheNeonBridge

· 6h atrás

Captura de tela + texto prevê coordenadas diretamente, automação do navegador vai mudar completamente

Ver originalResponder0

CandleChaser

· 6h atrás

64 placas H100 treinando por dois dias e meio, não consigo calcular esse custo

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.23M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.8K Popularidade
#
IsraelStrikesIranBTCPlunges
49.59K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularidade
#
MicronMarketCapBreaks1Trillion
38.77K Popularidade

Fixado

sitemap

Microsoft lança o primeiro modelo de agente inteligente controlado por computador com 7 bilhões de parâmetros, Fara-7B

Tendências

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado