Microsoft Researcher побеждает в собственной бенчмарке Perplexity: двойная модель проходит оценку в Frontier, Cowork синхронно открывает агентство для длинных задач

robot
Генерация тезисов в процессе

Сообщение с сайта CoinJie.com: по данным мониторинга 1M AI News, Microsoft синхронно открыла две новые возможности Microsoft 365 Copilot через Frontier (программа предварительного доступа для корпоративных пользователей; участники могут заранее опробовать функции Copilot, которые еще не вышли официально). Researcher (глубокий исследовательский агент, встроенный в Copilot) добавил два типа режимов совместной работы с несколькими моделями: Critique и Council. Critique основан на взаимодействии моделей из Anthropic и OpenAI: одна отвечает за планирование, поиск и черновой набросок, другая — за проверку и доводку; при выборе Auto режим включается по умолчанию. Council также параллельно запускает две модели: каждая генерирует полноценный отчет, а затем отдельная модель-оценщик обобщает различия и сходства. Microsoft использует GPT-5.2 в качестве оценочной модели (самый строгий из трех методов оценки из исходной статьи) и тестирует Critique на бенчмарке DRACO (100 сложных исследовательских задач, опубликованных исследователями Perplexity, охватывающих 10 областей). В итоге комплексный балл оказался на 7,0 выше, чем у лучшей системы в бенчмарке Perplexity Deep Research (с использованием Claude Opus 4.6), что дает относительное улучшение на 13,88%. В оригинальной статье DRACO Critique не было включено — это данные, которые Microsoft получила в ходе самостоятельного тестирования по тому же протоколу оценки. Copilot Cowork рассчитан на более длинные многшаговые задачи: сначала по целям формируется план, затем работа последовательно продвигается между инструментами и файлами; в процессе отображается прогресс, а пользователь может в любой момент подключиться. Microsoft в качестве примера раннего пилотного использования называет Capital Group, заявляя, что он уже применялся для планирования проектов, составления расписаний, подготовки материалов к сдаче и подготовки к управленческому разбору.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить