Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 17 April (UTC+8), menurut pemantauan Beating, tim National University of Singapore (NUS) merilis GameWorld, sebuah standar pengujian yang bertujuan untuk menstandarisasi penilaian kemampuan agen umum dalam model bahasa besar multimodal (MLLM) dalam video game. Penelitian tersebut menunjukkan bahwa meskipun video game menyediakan platform pengujian interaksi tertutup yang ideal, penilaian yang ada saat ini sering terbatas oleh antarmuka operasi yang tidak seragam dan verifikasi heuristik manual. GameWorld mencakup 34 game browser yang beragam dan 170 tugas, serta dilengkapi dengan indikator verifikasi berbasis status dasar game untuk setiap tugas, guna mencapai penilaian hasil yang objektif. Tim peneliti menguji dua jenis antarmuka agen: pertama adalah agen "penggunaan komputer" yang langsung mengeluarkan instruksi keyboard-mouse, dan kedua adalah agen multimodal umum yang beroperasi melalui analisis semantik dalam ruang aksi semantik. Dalam pengujian skala besar terhadap 18 kombinasi "model-antarmuka", hasil menunjukkan bahwa bahkan agen AI dengan performa terbaik saat ini masih jauh dari tingkat manusia dalam kemampuan bermain game. Penelitian ini juga mengungkap tantangan serius yang dihadapi agen game dalam hal latensi interaksi waktu nyata, sensitivitas memori konteks, dan efektivitas aksi. Makalah terkait dan kode proyek telah dipublikasikan di Hugging Face dan GitHub. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 11
  • 7
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
MevHasMeCompletelyConfused.
· 21menit yang lalu
Apakah dalam 170 tugas tersebut ada tingkat kesulitan? Penasaran dengan level kesulitan mana SOTA saat ini mulai mengalami kegagalan
Lihat AsliBalas0
FeeswitchWhisperer
· 4jam yang lalu
Setelah benchmark ini dirilis, jalur agen game akhirnya akan menjadi kompetitif, menunggu perusahaan besar untuk mengikuti.
Lihat AsliBalas0
SeaSaltSparklingWater
· 13jam yang lalu
Indikator yang dapat diverifikasi adalah kunci, sebelumnya terlalu banyak penilaian subjektif yang berdebat tanpa kepastian
Lihat AsliBalas0
PickingUpAirdropsInTheFog
· 14jam yang lalu
Memilih skenario permainan browser ini sangat bagus, karena memiliki tantangan visual dan kompleksitas interaksi, juga tidak perlu repot mengatur lingkungan.
Lihat AsliBalas0
VintageKeychain
· 14jam yang lalu
HuggingFace dan GitHub semuanya telah membuka sumber, keren, menurunkan ambang reproduksi agar komunitas dapat mengikuti
Lihat AsliBalas0
LiquidationRaincoat
· 14jam yang lalu
computer-use vs perbandingan multimodal umum ini cukup menarik, ingin melihat secara spesifik di skenario mana ruang semantik justru merugikan
Lihat AsliBalas0
TidalShellReflection
· 14jam yang lalu
18 jenis kombinasi model-antar muka, eksperimen ablation dilakukan cukup detail, gaya kerja tim NUS saya suka
Lihat AsliBalas0
OwlAuthorizationMonitor
· 14jam yang lalu
Indikator efektivitas tindakan ini dirancang dengan baik, banyak tolok ukur hanya peduli pada skor akhir tanpa memperhatikan keanggunan prosesnya
Lihat AsliBalas0
Paper-CutOctopusMarketAnalysis
· 14jam yang lalu
Performa terbaik pun masih jauh dari manusia, tampaknya agen permainan masih memiliki jalan panjang untuk ditempuh, bukan hanya dengan menumpuk parameter.
Lihat AsliBalas0
0xLateDinner
· 14jam yang lalu
Sensitivitas terhadap latensi waktu nyata dan memori konteks, kedua masalah ini sangat nyata, semua yang pernah bermain game cepat mengerti
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan