Ruang aksi semantik vs kontrol langsung keyboard-mouse, dua antarmuka dibandingkan untuk melihat data

Lihat Asli
MeNews
Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser
Berita ME News, 17 April (UTC+8), menurut pemantauan Beating dari Dongcha, tim dari National University of Singapore (NUS) merilis GameWorld, sebuah standar pengujian yang bertujuan untuk menstandarisasi penilaian kemampuan agen umum dalam model bahasa besar multimodal (MLLM) di dalam video game. Penelitian tersebut menunjukkan bahwa meskipun video game menyediakan platform pengujian interaksi tertutup yang ideal, penilaian yang ada saat ini sering terbatas oleh ketidakseragaman antarmuka operasi dan verifikasi heuristik manusia. GameWorld mencakup 34 game browser yang beragam dan 170 tugas, serta dilengkapi dengan indikator yang dapat diverifikasi berdasarkan status dasar permainan untuk mencapai penilaian hasil yang objektif. Tim peneliti menguji dua jenis antarmuka agen: pertama adalah agen "penggunaan komputer" yang langsung mengeluarkan instruksi keyboard-mouse, dan kedua adalah melalui analisis semantik dalam ruang aksi semantik.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan