Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser

robot
Pembuatan abstrak sedang berlangsung
BERITA ME, 17 April (UTC+8), menurut pemantauan Beating dari Dongcha, tim National University of Singapore (NUS) merilis GameWorld, sebuah benchmark yang bertujuan untuk menstandarisasi penilaian kemampuan agen umum dalam model bahasa besar multimodal (MLLM) di video game. Penelitian tersebut menunjukkan bahwa meskipun video game menyediakan platform pengujian interaksi tertutup yang ideal, penilaian yang ada sering terbatas oleh antarmuka operasi yang tidak seragam dan verifikasi heuristik manual. GameWorld mencakup 34 game browser yang beragam dan 170 tugas, serta dilengkapi dengan indikator verifikasi berbasis status dasar game untuk setiap tugas, guna mencapai penilaian hasil yang objektif. Tim peneliti menguji dua jenis antarmuka agen: pertama adalah agen "penggunaan komputer" yang langsung mengeluarkan instruksi keyboard-mouse, dan kedua adalah agen multimodal umum yang beroperasi melalui analisis semantik dalam ruang aksi semantik. Dalam pengujian skala besar terhadap 18 kombinasi "model-antarmuka", hasil menunjukkan bahwa bahkan agen AI dengan performa terbaik saat ini jauh dari tingkat manusia. Penelitian ini juga mengungkap tantangan serius yang dihadapi agen game dalam hal latensi interaksi waktu nyata, sensitivitas memori konteks, dan efektivitas aksi. Makalah terkait dan kode proyek telah dipublikasikan di Hugging Face dan GitHub. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • 7
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
FrontrunTherapy
· 6jam yang lalu
Kedalaman latensi waktu nyata dan memori konteks ini berdua, diperkirakan sulit untuk diatasi dalam waktu enam bulan ke depan
Lihat AsliBalas0
GateUser-c4e25c95
· 6jam yang lalu
Perintah keyboard dan mouse terlalu kasar, multimodal umum adalah jawaban yang benar
Lihat AsliBalas0
StakingDaydreamer
· 6jam yang lalu
Keefektifan tindakan yang rendah menunjukkan bahwa tingkat perencanaan masih lemah, dan jalur persepsi-keputusan belum terhubung.
Lihat AsliBalas0
ExitLiquidityPoet
· 6jam yang lalu
Kode terbuka mendapatkan pujian, ambang reproduksi menurun, komunitas dapat berinovasi bersama
Lihat AsliBalas0
RevokingPermissionsOnARainy
· 6jam yang lalu
Lingkungan browser lebih sulit dari yang dibayangkan, perubahan DOM cepat, status tersembunyi, agen mudah bingung
Lihat AsliBalas0
  • Disematkan