Microsoft lança o primeiro modelo de agente inteligente controlado por computador com 7B parâmetros, Fara-7B

robot
Geração de resumo em curso
AIMPACT mensagem, 16 de maio (UTC+8), a Microsoft lançou o Fara-7B, seu primeiro modelo de linguagem inteligente de 7B parâmetros projetado especificamente para cenários de uso de computador.
Este modelo utiliza uma arquitetura de decodificador multimodal, capaz de receber imagens de captura de tela e contexto de texto, prevendo diretamente cadeias de pensamento parametrizadas e ações operacionais.
Construído com base no Qwen 2.5-VL (7B), suporta um comprimento de contexto de 128k, treinado por 2,5 dias em 64 GPUs H100, lançado sob licença MIT em 24 de novembro de 2025.
O Fara-7B percebe entradas do navegador por captura de tela, combinando raciocínio interno e registro de estado histórico para prever a próxima ação e seus parâmetros (como coordenadas de clique), dependendo de um grande conjunto de dados sintéticos completos para treinamento.
O modelo consegue planejar e executar tarefas avançadas (como reservar restaurantes, solicitar empregos, planejar viagens, etc.).
No que diz respeito ao alinhamento de segurança, utiliza métodos de treinamento robusto posterior, possui capacidade de reconhecimento de pontos-chave, consegue rejeitar sete categorias de tarefas que violem políticas de uso e pausa operações ao detectar informações pessoais ou ao completar compras em pontos críticos.
Os usuários podem implantar e interagir via repositórios no GitHub, vllm e a ferramenta fara-cli, sendo principalmente aplicado em tarefas automatizadas na web.
(Origem: InFoQ)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 11
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
MintCondition
· 8h atrás
Pós-treinamento de alinhamento de segurança + pausa nos pontos-chave, essa abordagem de design claramente aprendeu com as lições anteriores
Ver originalResponder0
DepegDaydream
· 8h atrás
Treinamento com dados totalmente sintéticos, o ciclo de dados está fechado, e os custos de iteração futura serão cada vez menores.
Ver originalResponder0
BlueberryStakingMachine
· 9h atrás
Tratar simultaneamente capturas de tela e texto, a multimodalidade finalmente deixou de ser uma moda passageira e tornou-se uma necessidade real
Ver originalResponder0
LatencyMonk
· 9h atrás
64 placas H100 treinam em 2,5 dias, esse custo e eficiência estão abaixo do que eu imaginava
Ver originalResponder0
BridgeAnxiety
· 9h atrás
A previsão de coordenadas e parâmetros é realmente crucial, antes usava GPT-4V e ainda tinha que fazer o pós-processamento por conta própria
Ver originalResponder0
YieldBento
· 9h atrás
fara-cli interação direta na linha de comando, alegria dos geeks, vou tentar amanhã
Ver originalResponder0
BluePeonyDoesn'tDrop
· 9h atrás
Pode recusar tarefas que violem as regras e ainda assim pausar proativamente, essa alinhamento de segurança é mais detalhado do que alguns modelos de código fechado
Ver originalResponder0
PurpleMistLily
· 9h atrás
Contexto de 128k+ percepção de capturas de tela, automação de navegador finalmente sem precisar escrever uma pilha de XPath
Ver originalResponder0
LonelyStoneUnderTheAurora
· 9h atrás
A licença MIT significa que é permitido usar comercialmente, modificar livremente, e as empresas de rebranding domésticas estão preparadas
Ver originalResponder0
IdleFishDaoMember
· 9h atrás
Qwen 2.5-VL base + dados sintéticos, a rota de dados sintéticos está se tornando cada vez mais mainstream
Ver originalResponder0
Ver mais