Berita ME News, 17 April (UTC+8), menurut pemantauan Beating, tim National University of Singapore (NUS) merilis GameWorld, sebuah standar pengujian yang bertujuan untuk menstandarisasi penilaian kemampuan agen umum dalam model bahasa besar multimodal (MLLM) dalam video game. Penelitian tersebut menunjukkan bahwa meskipun video game menyediakan platform pengujian interaksi tertutup yang ideal, penilaian yang ada saat ini sering terbatas oleh antarmuka operasi yang tidak seragam dan verifikasi heuristik manual. GameWorld mencakup 34 game browser yang beragam dan 170 tugas, serta dilengkapi dengan indikator verifikasi berbasis status dasar game untuk setiap tugas, guna mencapai penilaian hasil yang objektif. Tim peneliti menguji dua jenis antarmuka agen: pertama adalah agen "penggunaan komputer" yang langsung mengeluarkan instruksi keyboard-mouse, dan kedua adalah agen multimodal umum yang beroperasi melalui analisis semantik dalam ruang aksi semantik. Dalam pengujian skala besar terhadap 18 kombinasi "model-antarmuka", hasil menunjukkan bahwa bahkan agen AI dengan performa terbaik saat ini masih jauh dari tingkat manusia dalam kemampuan bermain game. Penelitian ini juga mengungkap tantangan serius yang dihadapi agen game dalam hal latensi interaksi waktu nyata, sensitivitas memori konteks, dan efektivitas aksi. Makalah terkait dan kode proyek telah dipublikasikan di Hugging Face dan GitHub. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

11 Suka

Hadiah
11
11
7
Bagikan

Komentar

Tambahkan komentar

MevHasMeCompletelyConfused.

· 21menit yang lalu

Apakah dalam 170 tugas tersebut ada tingkat kesulitan? Penasaran dengan level kesulitan mana SOTA saat ini mulai mengalami kegagalan

Lihat AsliBalas0

FeeswitchWhisperer

· 4jam yang lalu

Setelah benchmark ini dirilis, jalur agen game akhirnya akan menjadi kompetitif, menunggu perusahaan besar untuk mengikuti.

Lihat AsliBalas0

SeaSaltSparklingWater

· 13jam yang lalu

Indikator yang dapat diverifikasi adalah kunci, sebelumnya terlalu banyak penilaian subjektif yang berdebat tanpa kepastian

Lihat AsliBalas0

PickingUpAirdropsInTheFog

· 14jam yang lalu

Memilih skenario permainan browser ini sangat bagus, karena memiliki tantangan visual dan kompleksitas interaksi, juga tidak perlu repot mengatur lingkungan.

Lihat AsliBalas0

VintageKeychain

· 14jam yang lalu

HuggingFace dan GitHub semuanya telah membuka sumber, keren, menurunkan ambang reproduksi agar komunitas dapat mengikuti

Lihat AsliBalas0

LiquidationRaincoat

· 14jam yang lalu

computer-use vs perbandingan multimodal umum ini cukup menarik, ingin melihat secara spesifik di skenario mana ruang semantik justru merugikan

Lihat AsliBalas0

TidalShellReflection

· 14jam yang lalu

18 jenis kombinasi model-antar muka, eksperimen ablation dilakukan cukup detail, gaya kerja tim NUS saya suka

Lihat AsliBalas0

OwlAuthorizationMonitor

· 14jam yang lalu

Indikator efektivitas tindakan ini dirancang dengan baik, banyak tolok ukur hanya peduli pada skor akhir tanpa memperhatikan keanggunan prosesnya

Lihat AsliBalas0

Paper-CutOctopusMarketAnalysis

· 14jam yang lalu

Performa terbaik pun masih jauh dari manusia, tampaknya agen permainan masih memiliki jalan panjang untuk ditempuh, bukan hanya dengan menumpuk parameter.

Lihat AsliBalas0

0xLateDinner

· 14jam yang lalu

Sensitivitas terhadap latensi waktu nyata dan memori konteks, kedua masalah ini sangat nyata, semua yang pernah bermain game cepat mengerti

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
240.41K Popularitas
#
HYPEOutperformsAgain
16.33M Popularitas
#
IsraelStrikesIranBTCPlunges
48.54K Popularitas
#
#DailyPolymarketHotspot
1.02M Popularitas
#
GateSquarePizzaDay
1.71M Popularitas

Disematkan

peta situs

Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser

Topik Trending

TradfiTradingChallenge

HYPEOutperformsAgain

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan