Microsoft a publié Fara-7B, un agent intelligent multimodal de 7 milliards de paramètres, conçu spécifiquement pour les scénarios d'utilisation informatique. Il peut traiter simultanément des captures d'écran et du texte, prédire directement des chaînes de pensée avec paramètres et des actions opérationnelles, construit sur Qwen 2.5-VL, avec un contexte de 128k, entraîné pendant 2,5 jours sur 64 blocs H100, publié sous licence MIT. Il perçoit la saisie du navigateur via des captures d'écran, combinant raisonnement et prédiction de l'état historique pour déterminer la prochaine action et les paramètres tels que les coordonnées, en s'appuyant sur une grande quantité de données synthétiques complètes. Il possède la capacité de planifier et d'exécuter des tâches avancées, et utilise un alignement sécurisé robuste après entraînement, capable de refuser des tâches non conformes et de faire une pause à des points clés. Il peut être déployé et interagi via GitHub, vllm, fara-cli, pour l'automatisation des tâches web.

MeNews

2026-05-27 04:06:37

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), Microsoft a lancé Fara-7B, son premier petit modèle de langage intelligent de 7 milliards de paramètres conçu spécifiquement pour les scénarios d'utilisation informatique.
Ce modèle utilise une architecture de décodeur multimodal, capable de recevoir des images de captures d'écran et du contexte textuel, pour prédire directement des chaînes de pensée paramétrées et des actions opérationnelles.
Basé sur Qwen 2.5-VL (7B), il supporte une longueur de contexte de 128k, a été entraîné pendant 2,5 jours sur 64 GPU H100, et sera publié sous licence MIT le 24 novembre 2025.
Fara-7B perçoit le navigateur via des captures d'écran, combinant inférence interne et enregistrement de l'état historique pour prédire la prochaine action et ses paramètres (comme les coordonnées de clic), l'entraînement reposant sur un vaste ensemble de données synthétiques complètes.
Le modèle peut planifier et exécuter des tâches avancées (comme réserver un restaurant, postuler à un emploi, planifier un voyage, etc.).
En matière d'alignement de sécurité, il utilise une méthode de formation postérieure robuste, possède une capacité d'identification des points clés, peut refuser sept types de tâches violant la politique d'utilisation, et suspend ses opérations à des points critiques tels que la saisie d'informations personnelles ou la finalisation d'achats.
Les utilisateurs peuvent déployer et interagir via des outils comme le dépôt GitHub, vllm et fara-cli, principalement pour l'automatisation des tâches web.
(Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

11 J'aime

Récompense
11
9
3
Partager

Commentaire

Ajouter un commentaire

GateUser-53a6e1a8

· Il y a 1h

L'alignement sécurisé peut refuser des tâches non conformes, ce qui est plus fiable que la génération d'AutoGPT.

Voir l'originalRépondre0

TheBluePeony'sProphecy

· Il y a 1h

Qwen 2.5-VL a une bonne base, mais la piste des agents multimodaux est devenue folle.

Voir l'originalRépondre0

SeaSaltFlavorAirdrop

· Il y a 2h

Dans le domaine de l'automatisation web, les bricolages de Playwright+LLM vont perdre leur emploi

Voir l'originalRépondre0

GateUser-4bd1cc87

· Il y a 2h

Licence MIT appréciée, 7B paramètres peuvent fonctionner localement

Voir l'originalRépondre0

GlassCityAfterTheRain

· Il y a 2h

fara-cli est-il facile à déployer ? Y a-t-il une image Docker ?

Voir l'originalRépondre0

GateUser-8da82d63

· Il y a 2h

Entraînement avec des données synthétiques complètes, capacité de généralisation douteuse, attente de tests réels

Voir l'originalRépondre0

LateAlphaCourier

· Il y a 2h

128k de contexte suffisent pour que je puisse tout insérer dans la page web, n'est-ce pas ?

Voir l'originalRépondre0

AirdropUnderTheNeonBridge

· Il y a 2h

Capture d'écran + texte pour prédire directement les coordonnées, l'automatisation du navigateur doit évoluer

Voir l'originalRépondre0

CandleChaser

· Il y a 2h

64 cartes H100 entraînées deux jours et demi, je ne peux pas calculer ce coût

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.23M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.48K Popularité
#
IsraelStrikesIranBTCPlunges
49.57K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularité
#
MicronMarketCapBreaks1Trillion
36.85K Popularité

Épinglé

Microsoft a publié le premier modèle d'agent intelligent contrôlé par ordinateur avec 7 milliards de paramètres, Fara-7B

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé