Microsoft a publié le premier modèle d'agent intelligent contrôlé par ordinateur avec 7 milliards de paramètres, Fara-7B

robot
Création du résumé en cours
AIMPACT message, le 16 mai (UTC+8), Microsoft a lancé Fara-7B, son premier petit modèle de langage intelligent de 7 milliards de paramètres conçu spécifiquement pour les scénarios d'utilisation informatique.
Ce modèle utilise une architecture de décodeur multimodal, capable de recevoir des images de captures d'écran et du contexte textuel, pour prédire directement des chaînes de pensée paramétrées et des actions opérationnelles.
Basé sur Qwen 2.5-VL (7B), il supporte une longueur de contexte de 128k, a été entraîné pendant 2,5 jours sur 64 GPU H100, et sera publié sous licence MIT le 24 novembre 2025.
Fara-7B perçoit le navigateur via des captures d'écran, combinant inférence interne et enregistrement de l'état historique pour prédire la prochaine action et ses paramètres (comme les coordonnées de clic), l'entraînement reposant sur un vaste ensemble de données synthétiques complètes.
Le modèle peut planifier et exécuter des tâches avancées (comme réserver un restaurant, postuler à un emploi, planifier un voyage, etc.).
En matière d'alignement de sécurité, il utilise une méthode de formation postérieure robuste, possède une capacité d'identification des points clés, peut refuser sept types de tâches violant la politique d'utilisation, et suspend ses opérations à des points critiques tels que la saisie d'informations personnelles ou la finalisation d'achats.
Les utilisateurs peuvent déployer et interagir via des outils comme le dépôt GitHub, vllm et fara-cli, principalement pour l'automatisation des tâches web.
(Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 3
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-53a6e1a8
· Il y a 1h
L'alignement sécurisé peut refuser des tâches non conformes, ce qui est plus fiable que la génération d'AutoGPT.
Voir l'originalRépondre0
TheBluePeony'sProphecy
· Il y a 1h
Qwen 2.5-VL a une bonne base, mais la piste des agents multimodaux est devenue folle.
Voir l'originalRépondre0
SeaSaltFlavorAirdrop
· Il y a 2h
Dans le domaine de l'automatisation web, les bricolages de Playwright+LLM vont perdre leur emploi
Voir l'originalRépondre0
GateUser-4bd1cc87
· Il y a 2h
Licence MIT appréciée, 7B paramètres peuvent fonctionner localement
Voir l'originalRépondre0
GlassCityAfterTheRain
· Il y a 2h
fara-cli est-il facile à déployer ? Y a-t-il une image Docker ?
Voir l'originalRépondre0
GateUser-8da82d63
· Il y a 2h
Entraînement avec des données synthétiques complètes, capacité de généralisation douteuse, attente de tests réels
Voir l'originalRépondre0
LateAlphaCourier
· Il y a 2h
128k de contexte suffisent pour que je puisse tout insérer dans la page web, n'est-ce pas ?
Voir l'originalRépondre0
AirdropUnderTheNeonBridge
· Il y a 2h
Capture d'écran + texte pour prédire directement les coordonnées, l'automatisation du navigateur doit évoluer
Voir l'originalRépondre0
CandleChaser
· Il y a 2h
64 cartes H100 entraînées deux jours et demi, je ne peux pas calculer ce coût
Voir l'originalRépondre0
Afficher plus