Peneliti Microsoft unggul di atas standar pengujian Perplexity buatan sendiri: peninjauan model ganda masuk ke Frontier, Cowork secara bersamaan membuka proxy tugas panjang

robot
Pembuatan abstrak sedang berlangsung

Berita dari Jibie.com: menurut pemantauan 1M AI News, Microsoft membuka secara bersamaan dua kemampuan baru Microsoft 365 Copilot melalui Frontier (program rilis awal untuk pengguna perusahaan yang bisa mencoba lebih dulu fitur Copilot yang belum diluncurkan secara resmi). Researcher (agen riset mendalam bawaan Copilot) menambahkan dua jenis mode kolaborasi multi-model: Critique dan Council. Critique melibatkan kolaborasi model dari Anthropic dan OpenAI: satu bertanggung jawab untuk perencanaan, penelusuran, dan penyusunan draf, sementara yang lain khusus untuk meninjau dan menghaluskan; opsi Auto secara default diaktifkan saat dipilih. Council juga menjalankan dua model secara paralel: masing-masing menghasilkan laporan lengkap, lalu model penilai terpisah mengompilasi persamaan dan perbedaan. Microsoft menggunakan GPT-5.2 sebagai model penilai (salah satu dari tiga metode penilaian dalam makalah asli, yang paling ketat), menguji Critique pada benchmark DRACO (100 pertanyaan riset kompleks yang diterbitkan oleh peneliti Perplexity, mencakup 10 bidang). Secara keseluruhan, skor gabungan lebih tinggi 7,0 poin dibanding sistem terbaik dalam benchmark, yaitu Perplexity Deep Research (menggunakan Claude Opus 4.6), dengan peningkatan relatif 13,88%. Dalam makalah asli DRACO, Critique tidak dicantumkan; ini adalah data yang Microsoft peroleh dari pengujian mandiri mengikuti protokol penilaian yang sama. Copilot Cowork ditujukan untuk pekerjaan multi-langkah yang lebih panjang: pertama menghasilkan rencana berdasarkan tujuan, lalu mendorong langkah demi langkah lintas alat dan file, sambil menampilkan progres; pengguna dapat ikut campur kapan saja. Microsoft menjadikan Capital Group sebagai contoh uji coba awal, menyebut bahwa teknologi tersebut telah digunakan untuk perencanaan proyek, penjadwalan, pembuatan materi serah terima, serta menyiapkan rangkuman eksekutif untuk ditinjau kembali.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan