Peneliti Microsoft Unggul dalam Benchmark Buatan Sendiri Perplexity: Tinjauan Model Ganda di Frontier, Cowork Meluncurkan Agen Tugas Panjang

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan dari 1M AI News, Microsoft telah meluncurkan secara bersamaan dua kemampuan baru untuk Microsoft 365 Copilot melalui Frontier (sebuah program uji coba pra-rilis untuk pengguna perusahaan yang memungkinkan peserta merasakan fitur Copilot sebelum fitur tersebut resmi diluncurkan). Peneliti (agen riset mendalam bawaan Copilot) telah memperkenalkan dua mode kolaborasi multi-model baru: Critique dan Council. Critique berkolaborasi dengan model dari Anthropic dan OpenAI: satu bertanggung jawab untuk perencanaan, pengambilan, dan penyusunan, sementara yang lain mengkhususkan diri dalam peninjauan dan penyempurnaan, dengan Auto diaktifkan secara default. Council beroperasi dengan cara yang mirip, dengan kedua model menghasilkan laporan lengkap, yang kemudian dirangkum oleh model ulasan terpisah. Microsoft menggunakan GPT-5.2 sebagai model evaluasi (yang paling ketat di antara tiga metode evaluasi dalam naskah asli) untuk menguji Critique pada benchmark DRACO (yang mencakup 100 pertanyaan riset kompleks di 10 bidang yang dipublikasikan oleh peneliti Perplexity). Skor keseluruhan adalah 7,0 poin lebih tinggi dibanding sistem terbaik di benchmark, Perplexity Deep Research (yang menggunakan Claude Opus 4.6), yang mewakili peningkatan relatif sebesar 13,88%. Critique tidak dimasukkan dalam naskah asli DRACO, dan data ini diperoleh Microsoft melalui pengujian mandiri dengan protokol evaluasi yang sama. Copilot Cowork ditujukan untuk tugas multi-langkah yang lebih panjang: ia pertama-tama menghasilkan rencana berdasarkan tujuan, lalu melangkah selangkah demi selangkah melalui alat dan dokumen, menampilkan kemajuan sepanjang proses, memungkinkan pengguna untuk melakukan intervensi kapan saja. Microsoft telah menyebut Capital Group sebagai kasus penggunaan awal, dengan menyatakan bahwa sistem itu telah digunakan untuk perencanaan proyek, penjadwalan, pembuatan deliverable, dan menyiapkan tinjauan eksekutif.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan