Microsoft a publié le premier modèle d'agent intelligent contrôlé par ordinateur avec 7 milliards de paramètres, Fara-7B
Microsoft a publié Fara-7B, un agent intelligent multimodal de 7 milliards de paramètres, conçu spécifiquement pour les scénarios d'utilisation informatique. Il peut traiter simultanément des captures d'écran et du texte, prédire directement des chaînes de pensée avec paramètres et des actions opérationnelles, construit sur Qwen 2.5-VL, avec un contexte de 128k, entraîné pendant 2,5 jours sur 64 blocs H100, publié sous licence MIT. Il perçoit la navigation via capture d'écran, combinant raisonnement et prédiction de l'état historique pour déterminer la prochaine action et les paramètres tels que les coordonnées, en s'appuyant sur une grande quantité de données synthétiques complètes. Il possède la capacité de planifier et d'exécuter des tâches avancées, et utilise un alignement sécurisé robuste après entraînement, pouvant refuser des tâches non conformes et faire une pause à des points clés. Il peut être déployé et interagi via GitHub, vllm, fara-cli, pour l'automatisation des tâches web.