Nhà nghiên cứu của Microsoft xuất sắc trong Bảng xếp hạng tự phát triển của Perplexity: Đánh giá mô hình đôi trong Frontier, Cowork ra mắt Trình điều khiển nhiệm vụ dài

robot
Đang tạo bản tóm tắt

Theo giám sát của 1M AI News, Microsoft đã đồng thời ra mắt hai khả năng mới cho Microsoft 365 Copilot thông qua Frontier (một chương trình thử nghiệm tiền phát hành dành cho người dùng doanh nghiệp, cho phép người tham gia trải nghiệm các tính năng của Copilot trước khi chúng chính thức ra mắt). Nhà nghiên cứu (tác nhân deep research tích hợp sẵn của Copilot) đã giới thiệu hai chế độ cộng tác đa mô hình mới: Critique và Council. Critique cộng tác với các mô hình từ Anthropic và OpenAI: một mô hình chịu trách nhiệm lập kế hoạch, truy xuất và soạn thảo, trong khi mô hình còn lại chuyên về việc xem xét và tinh chỉnh, với Auto được bật theo mặc định. Council hoạt động tương tự với cả hai mô hình cùng tạo ra các báo cáo hoàn chỉnh, sau đó được một mô hình đánh giá riêng tóm tắt. Microsoft sử dụng GPT-5.2 làm mô hình đánh giá (nghiêm ngặt nhất trong ba phương pháp đánh giá ở bài báo gốc) để kiểm thử Critique trên benchmark DRACO (bao gồm 100 câu hỏi nghiên cứu phức tạp trên 10 lĩnh vực do các nhà nghiên cứu của Perplexity công bố). Điểm tổng thể cao hơn 7,0 điểm so với hệ thống tốt nhất trong benchmark, Perplexity Deep Research (sử dụng Claude Opus 4.6), tương ứng mức cải thiện tương đối 13,88%. Critique không được đưa vào bài báo DRACO ban đầu, và dữ liệu này được Microsoft thu thập thông qua tự kiểm thử theo cùng giao thức đánh giá. Copilot Cowork hướng đến các tác vụ đa bước dài hơn: nó đầu tiên tạo ra một kế hoạch dựa trên các mục tiêu, sau đó tiến hành theo từng bước qua các công cụ và tài liệu, hiển thị tiến độ trong suốt quá trình, cho phép người dùng can thiệp bất cứ lúc nào. Microsoft đã nêu Capital Group là một ví dụ sử dụng sớm, cho biết nó đã được dùng cho lập kế hoạch dự án, lập lịch, tạo đầu ra (deliverable), và chuẩn bị các bản xem xét dành cho lãnh đạo điều hành.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim