Microsoft Researcher перемогла у власному бенчмарку Perplexity: двомодельна рецензія увійшла у Frontier, Cowork одночасно відкриває довгі завдання-агенти

robot
Генерація анотацій у процесі

Повідомлення від CoinWired. За даними моніторингу 1M AI News, Microsoft синхронно відкрила дві нові можливості для Microsoft 365 Copilot через Frontier (програма для корпоративних користувачів із попереднім доступом “спробуй на смак”: учасники можуть завчасно протестувати функції Copilot, які ще не були офіційно запущені). Researcher (глибокий дослідницький агент, вбудований у Copilot) поповнився двома типами багатомодельної кооперації: Critique та Council. Critique передбачає співпрацю моделей Anthropic та OpenAI: одна відповідає за планування, пошук і підготовку чернетки, інша — за перевірку та ретельне шліфування; під час вибору Auto за замовчуванням вмикається саме цей режим. Council також запускає дві моделі паралельно: кожна генерує повний звіт, а потім окрема модель для оцінювання підсумовує відмінності й спільні риси.

Microsoft використовує GPT-5.2 як модель для оцінювання (найсуворіший із трьох методів оцінювання в оригінальній праці) і тестує Critique на бенчмарку DRACO (100 складних дослідницьких завдань, опублікованих дослідниками Perplexity, що охоплюють 10 галузей). У підсумку сукупний бал вищий, ніж у найкращої системи-базису Perplexity Deep Research (із використанням Claude Opus 4.6), на 7.0, а відносне зростання становить 13.88%. У початковій науковій роботі DRACO Critique не було включено; це дані, які Microsoft отримала під час власного тестування за тією самою процедурою оцінювання. Copilot Cowork орієнтований на довші багатокрокові задачі: спочатку генерується план відповідно до мети, далі робота послідовно просувається через інструменти та файли, а в процесі показується прогрес; користувач може втручатися будь-коли. Microsoft наводить як приклад раннього тестування Capital Group і заявляє, що її вже використовують для планування проєктів, календарного розкладу, створення матеріалів для передачі та підготовки до повторного розгляду з боку керівників.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити