Fara-7B utilise des captures d'écran + du texte pour prédire directement les coordonnées de clic, ce qui revient à équiper l'IA de yeux et de mains, une licence MIT open source est encore plus impressionnante.

Voir l'original
MeNews
Microsoft a publié le premier modèle d'agent intelligent contrôlé par ordinateur avec 7 milliards de paramètres, Fara-7B
Microsoft a publié Fara-7B, un agent intelligent multimodal de 7 milliards de paramètres, conçu spécifiquement pour les scénarios d'utilisation informatique. Il peut traiter simultanément des captures d'écran et du texte, prédire directement des chaînes de pensée avec paramètres et des actions opérationnelles, construit sur Qwen 2.5-VL, avec un contexte de 128k, entraîné pendant 2,5 jours sur 64 blocs H100, publié sous licence MIT. Il perçoit la saisie du navigateur via des captures d'écran, combinant raisonnement et prédiction de l'état historique pour déterminer la prochaine action et les paramètres tels que les coordonnées, en s'appuyant sur une grande quantité de données synthétiques complètes. Il possède la capacité de planifier et d'exécuter des tâches avancées, et utilise un alignement sécurisé robuste après entraînement, capable de refuser des tâches non conformes et de faire une pause à des points clés. Il peut être déployé et interagi via GitHub, vllm, fara-cli, pour l'automatisation des tâches web.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé