Microsoft finally steps into the 7B intelligent agent arena, Fara-7B directly visualizes images to operate browsers, MIT's open source is quite interesting

Voir l'original
MeNews
Microsoft a publié le premier modèle d'agent intelligent contrôlé par ordinateur avec 7 milliards de paramètres, Fara-7B
AIMPACT message, le 16 mai (UTC+8), Microsoft a lancé Fara-7B, son tout premier modèle de langage intelligent de 7 milliards de paramètres conçu spécifiquement pour les scénarios d'utilisation informatique. Ce modèle utilise une architecture de décodeur multimodal, capable de recevoir des images de captures d'écran et du contexte textuel, pour prédire directement des chaînes de pensée paramétrées et des actions opérationnelles. Basé sur Qwen 2.5-VL (7B), il supporte une longueur de contexte de 128k, a été entraîné pendant 2,5 jours sur 64 GPU H100, et sera publié sous licence MIT le 24 novembre 2025. Fara-7B perçoit le navigateur via des captures d'écran, combinant la réflexion interne et l'enregistrement de l'état historique pour prédire la prochaine action et ses paramètres (comme les coordonnées de clic), l'entraînement reposant sur un vaste ensemble de données synthétiques complètes. Le modèle peut planifier et exécuter des tâches avancées (comme réserver un restaurant, postuler à un emploi, planifier
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé