BERITA ME, 17 April (UTC+8), menurut pemantauan Beating dari Dongcha, tim National University of Singapore (NUS) merilis GameWorld, sebuah benchmark yang bertujuan untuk menstandarisasi penilaian kemampuan agen umum dalam model bahasa besar multimodal (MLLM) di video game. Penelitian tersebut menunjukkan bahwa meskipun video game menyediakan platform pengujian interaksi tertutup yang ideal, penilaian yang ada sering terbatas oleh antarmuka operasi yang tidak seragam dan verifikasi heuristik manual. GameWorld mencakup 34 game browser yang beragam dan 170 tugas, serta dilengkapi dengan indikator verifikasi berbasis status dasar game untuk setiap tugas, guna mencapai penilaian hasil yang objektif. Tim peneliti menguji dua jenis antarmuka agen: pertama adalah agen "penggunaan komputer" yang langsung mengeluarkan instruksi keyboard-mouse, dan kedua adalah agen multimodal umum yang beroperasi melalui analisis semantik dalam ruang aksi semantik. Dalam pengujian skala besar terhadap 18 kombinasi "model-antarmuka", hasil menunjukkan bahwa bahkan agen AI dengan performa terbaik saat ini jauh dari tingkat manusia. Penelitian ini juga mengungkap tantangan serius yang dihadapi agen game dalam hal latensi interaksi waktu nyata, sensitivitas memori konteks, dan efektivitas aksi. Makalah terkait dan kode proyek telah dipublikasikan di Hugging Face dan GitHub. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

13 Suka

Hadiah
13
5
7
Bagikan

Komentar

Tambahkan komentar

FrontrunTherapy

· 6jam yang lalu

Kedalaman latensi waktu nyata dan memori konteks ini berdua, diperkirakan sulit untuk diatasi dalam waktu enam bulan ke depan

Lihat AsliBalas0

GateUser-c4e25c95

· 6jam yang lalu

Perintah keyboard dan mouse terlalu kasar, multimodal umum adalah jawaban yang benar

Lihat AsliBalas0

StakingDaydreamer

· 6jam yang lalu

Keefektifan tindakan yang rendah menunjukkan bahwa tingkat perencanaan masih lemah, dan jalur persepsi-keputusan belum terhubung.

Lihat AsliBalas0

ExitLiquidityPoet

· 6jam yang lalu

Kode terbuka mendapatkan pujian, ambang reproduksi menurun, komunitas dapat berinovasi bersama

Lihat AsliBalas0

RevokingPermissionsOnARainy

· 6jam yang lalu

Lingkungan browser lebih sulit dari yang dibayangkan, perubahan DOM cepat, status tersembunyi, agen mudah bingung

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
240.66K Popularitas
#
HYPEOutperformsAgain
16.33M Popularitas
#
IsraelStrikesIranBTCPlunges
48.54K Popularitas
#
#DailyPolymarketHotspot
1.02M Popularitas
#
GateSquarePizzaDay
1.71M Popularitas

Disematkan

peta situs

Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser

Topik Trending

TradfiTradingChallenge

HYPEOutperformsAgain

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan