Microsoft a publié Fara-7B, un agent intelligent multimodal de 7 milliards de paramètres, conçu spécifiquement pour les scénarios d'utilisation informatique. Il peut traiter simultanément des captures d'écran et du texte, prédire directement des chaînes de pensée avec paramètres et des actions opérationnelles, construit sur Qwen 2.5-VL, avec un contexte de 128k, entraîné pendant 2,5 jours sur 64 blocs H100, publié sous licence MIT. Il perçoit la navigation via capture d'écran, combinant raisonnement et prédiction de l'état historique pour déterminer la prochaine action et les paramètres tels que les coordonnées, en s'appuyant sur une grande quantité de données synthétiques complètes. Il possède la capacité de planifier et d'exécuter des tâches avancées, avec un alignement sécurisé robuste après entraînement, capable de refuser des tâches non conformes et de faire une pause à des points clés. Il peut être déployé et interagi via GitHub, vllm, fara-cli, pour l'automatisation des tâches web.

MeNews

2026-05-27 00:32:37

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), Microsoft a lancé Fara-7B, son premier petit modèle de langage intelligent de 7 milliards de paramètres conçu spécifiquement pour les scénarios d'utilisation informatique.
Ce modèle utilise une architecture de décodeur multimodal, capable de recevoir des images de captures d'écran et du contexte textuel, pour prédire directement des chaînes de pensée paramétrées et des actions opérationnelles.
Basé sur Qwen 2.5-VL (7B), il supporte une longueur de contexte de 128k, a été entraîné pendant 2,5 jours sur 64 GPU H100, et publié sous licence MIT le 24 novembre 2025.
Fara-7B perçoit le navigateur via des captures d'écran, combinant inférence interne et enregistrement de l'historique pour prédire la prochaine étape et ses paramètres (comme les coordonnées de clic), l'entraînement reposant sur un vaste ensemble de données synthétiques complètes.
Le modèle peut planifier et exécuter des tâches avancées (comme réserver un restaurant, postuler à un emploi, planifier un voyage, etc.).
En matière d'alignement de sécurité, il utilise une méthode de formation postérieure robuste, possède une capacité d'identification de points clés, peut refuser sept types de tâches violant la politique d'utilisation, et suspend ses opérations à des points critiques tels que la saisie d'informations personnelles ou la finalisation d'achats.
Les utilisateurs peuvent déployer et interagir via des outils comme le dépôt GitHub, vllm et fara-cli, principalement pour l'automatisation des tâches web.
(Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

10 J'aime

Récompense
10
11
Reposter
Partager

Commentaire

Ajouter un commentaire

MintCondition

· Il y a 5h

Post-formation de l'alignement sécurisé + mise en pause des points clés, cette approche de conception montre clairement qu'elle a tiré des leçons.

Voir l'originalRépondre0

DepegDaydream

· Il y a 5h

Entraînement avec des données synthétiques complètes, la boucle de données est fermée, et les coûts d'itération futurs seront de plus en plus faibles.

Voir l'originalRépondre0

BlueberryStakingMachine

· Il y a 6h

Traiter à la fois les captures d'écran et le texte, la multimodalité n'est enfin plus une simple mode mais une nécessité absolue

Voir l'originalRépondre0

LatencyMonk

· Il y a 7h

64 cartes H100 entraînées 2,5 jours, ce coût et cette efficacité sont inférieurs à ce que j'imaginais

Voir l'originalRépondre0

BridgeAnxiety

· Il y a 7h

La prédiction des coordonnées et des paramètres est vraiment cruciale, auparavant avec GPT-4V il fallait encore faire un traitement en aval soi-même.

Voir l'originalRépondre0

YieldBento

· Il y a 7h

fara-cli interaction en ligne de commande directe, les geeks sont ravis, je vais essayer demain

Voir l'originalRépondre0

BluePeonyDoesn'tDrop

· Il y a 7h

Peut refuser les tâches non conformes tout en se mettant en pause volontairement, cette alignement de sécurité est plus précis que celui de certains modèles propriétaires.

Voir l'originalRépondre0

PurpleMistLily

· Il y a 7h

128k contexte + détection de captures d'écran, l'automatisation du navigateur n'a enfin plus besoin d'écrire toute une série de XPath

Voir l'originalRépondre0

LonelyStoneUnderTheAurora

· Il y a 7h

La licence MIT signifie que l'on peut modifier et utiliser commercialement, les sociétés de reconditionnement nationales sont prêtes.

Voir l'originalRépondre0

IdleFishDaoMember

· Il y a 7h

Qwen 2.5-VL socle + données synthétiques complètes, la voie des données synthétiques devient de plus en plus dominante

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.23M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.66K Popularité
#
IsraelStrikesIranBTCPlunges
49.57K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularité
#
MicronMarketCapBreaks1Trillion
37.58K Popularité

Épinglé

Microsoft a publié le premier modèle d'agent intelligent contrôlé par ordinateur avec 7 milliards de paramètres, Fara-7B

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé