Nhà nghiên cứu của Microsoft chiến thắng trong chuẩn đánh giá tự phát triển Perplexity: Đánh giá hai mô hình tiến vào Frontier, Cowork đồng bộ mở rộng đại lý nhiệm vụ dài

robot
Đang tạo bản tóm tắt

Tin tức từ CoinWorld. Theo dõi của 1M AI News cho biết Microsoft đã đồng bộ mở hai năng lực mới của Microsoft 365 Copilot thông qua Frontier (chương trình cho người dùng doanh nghiệp đăng ký thử trước để trải nghiệm sớm, người tham gia có thể dùng thử các tính năng Copilot chưa được ra mắt chính thức). Researcher (Agent nghiên cứu chuyên sâu tích hợp sẵn trong Copilot) bổ sung thêm hai chế độ phối hợp làm việc đa mô hình: Critique và Council. Critique phối hợp các mô hình của Anthropic và OpenAI: một mô hình chịu trách nhiệm lập kế hoạch, truy xuất và soạn thảo, mô hình còn lại chuyên để thẩm định và tinh chỉnh; khi chọn Auto thì mặc định được bật. Council cũng chạy song song hai mô hình, mỗi mô hình tạo ra một báo cáo hoàn chỉnh, sau đó một mô hình đánh giá riêng sẽ tổng hợp điểm giống và khác nhau. Microsoft sử dụng GPT-5.2 làm mô hình thẩm định (một trong ba phương pháp thẩm định trong bài báo gốc, nghiêm ngặt nhất) để thử nghiệm Critique trên bộ chuẩn DRACO (100 câu hỏi nghiên cứu phức tạp do các nhà nghiên cứu của Perplexity công bố, bao phủ 10 lĩnh vực). Kết quả điểm tổng hợp cao hơn hệ thống tốt nhất trong bộ chuẩn là Perplexity Deep Research (sử dụng Claude Opus 4.6) là 7.0 điểm, tương đương cải thiện 13.88%. Bài báo gốc DRACO không ghi nhận Critique; đây là dữ liệu do Microsoft tự kiểm thử theo cùng quy trình đánh giá. Copilot Cowork hướng đến các công việc đa bước dài hơn: trước tiên tạo kế hoạch dựa trên mục tiêu, sau đó triển khai dần dần qua nhiều công cụ và tài liệu, trong quá trình đó hiển thị tiến độ, người dùng có thể can thiệp bất cứ lúc nào. Microsoft lấy Capital Group làm ví dụ thử nghiệm sớm, cho biết họ đã dùng cho việc lập kế hoạch dự án, lập lịch trình, tạo các đầu ra bàn giao và chuẩn bị cho các buổi tổng kết/đánh giá của ban lãnh đạo.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim