Microsoft Researcher remporte la victoire sur le benchmark interne Perplexity : l’évaluation à double modèle entre en Frontier, Cowork synchronise l’ouverture des agents pour les longues tâches

robot
Création du résumé en cours

CoinDesk – selon le suivi de 1M AI News, Microsoft a rendu disponibles deux nouvelles capacités de Microsoft 365 Copilot via Frontier (programme de prépublication pour les utilisateurs professionnels permettant aux participants de tester en avance des fonctionnalités Copilot qui ne sont pas encore officiellement lancées). Researcher (agent de recherche approfondie intégré à Copilot) ajoute deux modes de collaboration multi-modèles : Critique et Conseil. Critique repose sur la collaboration entre des modèles d’Anthropic et d’OpenAI : un modèle est chargé de la planification, de la recherche et de la rédaction, tandis que l’autre se spécialise dans la relecture et l’affinage ; lorsque Auto est sélectionné, cette option est activée par défaut. Conseil fonctionne également en parallèle avec deux modèles : chacun génère un rapport complet, puis un modèle d’évaluation distinct regroupe les points communs et différences. Microsoft utilise GPT-5.2 comme modèle d’évaluation (la plus stricte des trois méthodes d’évaluation de l’article original) pour tester Critique sur le benchmark DRACO (100 questions de recherche complexes publiées par des chercheurs de Perplexity, couvrant 10 domaines). Au final, le score global dépasse le meilleur système du benchmark, Perplexity Deep Research (utilisant Claude Opus 4.6), de 7,0 points, soit une progression relative de 13,88 %. L’article original de DRACO n’incluait pas Critique : c’est donc Microsoft, en testant selon le même protocole d’évaluation, qui rapporte ces données. Copilot Cowork vise un travail plus long et en plusieurs étapes : d’abord, générer un plan selon l’objectif, puis avancer progressivement en passant d’un outil et d’un fichier à l’autre ; pendant le processus, l’avancement est affiché, et l’utilisateur peut intervenir à tout moment. Microsoft cite Capital Group comme premier cas d’essai : l’entreprise affirme qu’il a déjà été utilisé pour la planification de projets, l’établissement de l’agenda, la préparation des livrables de production et la préparation des comptes rendus de direction.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler