Chercheur de Microsoft excelle dans le benchmark auto-développé de Perplexity : revue du modèle dual dans Frontier, Cowork lance l'agent de tâche longue

robot
Création du résumé en cours

Selon le suivi par 1M AI News, Microsoft a lancé simultanément deux nouvelles capacités pour Microsoft 365 Copilot via Frontier (un programme d’essai prépublic pour les utilisateurs en entreprise qui permet aux participants d’expérimenter les fonctionnalités de Copilot avant leur lancement officiel). Le chercheur (l’agent intégré de deep research de Copilot) a introduit deux nouveaux modes de collaboration multi-modèles : Critique et Conseil. Critique collabore avec des modèles d’Anthropic et d’OpenAI : l’un est responsable de la planification, de la récupération et de la rédaction, tandis que l’autre se spécialise dans la relecture et l’affinage, avec Auto activé par défaut. Conseil fonctionne de manière similaire avec les deux modèles générant des rapports complets, lesquels sont ensuite résumés par un modèle d’évaluation distinct. Microsoft utilise GPT-5.2 comme modèle d’évaluation (le plus strict parmi les trois méthodes d’évaluation dans l’article d’origine) pour tester Critique sur le benchmark DRACO (comprenant 100 questions de recherche complexes réparties dans 10 domaines publiées par des chercheurs de Perplexity). Le score global était supérieur de 7,0 points au meilleur système du benchmark, Perplexity Deep Research (qui utilise Claude Opus 4.6), ce qui représente une amélioration relative de 13,88 %. Critique n’était pas inclus dans le papier original DRACO, et ces données ont été obtenues par Microsoft via des tests internes selon le même protocole d’évaluation. Copilot Cowork vise des tâches multi-étapes plus longues : il génère d’abord un plan à partir des objectifs, puis progresse étape par étape à travers les outils et les documents, en affichant l’avancement tout au long du processus, ce qui permet aux utilisateurs d’intervenir à tout moment. Microsoft a cité Capital Group comme cas d’usage précoce, indiquant que cela a été utilisé pour la planification de projet, la planification des échéances, la création des livrables et la préparation de revues exécutives.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler