El equipo de NUS publicó el estándar de GameWorld, que incluye 34 juegos de navegador, 170 tareas, y métricas verificables para una evaluación objetiva. Se probaron dos tipos de interfaces de proxy: la interfaz de uso de computadora con instrucciones directas de teclado y ratón, y un proxy multimodal general que opera en el espacio semántico. Los resultados empíricos de 18 combinaciones de modelos e interfaces muestran que, incluso los mejores rendimientos, están muy por debajo de los humanos, y existen desafíos en aspectos como la latencia en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones. La publicación y el código relacionados ya están disponibles en HuggingFace y GitHub.

MeNews

2026-05-21 11:56:03

Generación de resúmenes en curso

ME Noticias Información, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, el equipo de la Universidad Nacional de Singapur (NUS) lanzó GameWorld, una prueba de referencia diseñada para estandarizar la evaluación de la capacidad de los modelos de lenguaje multimodal (MLLM) como agentes universales en videojuegos. El estudio señala que, aunque los videojuegos ofrecen un entorno ideal para pruebas de retroalimentación cerrada, las evaluaciones existentes a menudo están limitadas por interfaces de operación no uniformes y validaciones heurísticas manuales.
GameWorld incluye 34 juegos de navegador diversos y 170 tareas, y proporciona métricas verificables basadas en el estado subyacente del juego para cada tarea, con el fin de lograr una evaluación objetiva de los resultados.
El equipo de investigación probó dos tipos de interfaces de agentes: uno es el agente de "uso de computadora" que produce instrucciones de teclado y ratón directamente, y el otro es un agente multimodal general que opera en un espacio de acciones semánticas mediante análisis semántico.
En una prueba a gran escala de 18 combinaciones de "modelo-interfaz", los resultados mostraron que incluso los agentes de IA con mejor rendimiento actualmente están muy por debajo del nivel humano en capacidades de juego.
El estudio también reveló desafíos severos en aspectos como la latencia en la interacción en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones en los agentes de juego.
El artículo relacionado y el código del proyecto ya están disponibles públicamente en Hugging Face y GitHub. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
10
7
Compartir

Comentar

Añadir un comentario

FeeswitchWhisperer

· Hace37m

Con este benchmark, la categoría de agentes de juegos finalmente se va a poner competitiva, esperando que las grandes empresas sigan el ejemplo.

Ver originalResponder0

SeaSaltSparklingWater

· hace9h

Los indicadores verificables son clave, antes demasiadas evaluaciones subjetivas discutidas sin precisión.

Ver originalResponder0

PickingUpAirdropsInTheFog

· hace9h

Elegir este escenario de juegos en el navegador fue una excelente decisión, ya que combina desafíos visuales con una interacción compleja, además de no requerir complicaciones en la configuración del entorno.

Ver originalResponder0

VintageKeychain

· hace9h

HuggingFace y GitHub han abierto el código, ¡genial!
Reducir la barrera para la reproducción puede impulsar la participación de la comunidad

Ver originalResponder0

LiquidationRaincoat

· hace10h

computer-use vs. diseño de comparación de multimodalidad generalista es bastante interesante, quiero ver en qué escenarios específicos el espacio semántico en realidad sale perdiendo

Ver originalResponder0

TidalShellReflection

· hace10h

18 tipos de combinaciones de modelos e interfaces, los experimentos de ablación son lo suficientemente detallados, me gusta el estilo de trabajo del equipo NUS

Ver originalResponder0

OwlAuthorizationMonitor

· hace10h

La buena diseño del indicador de validez de la acción, muchos puntos de referencia solo se preocupan por la puntuación final sin importar si el proceso es elegante.

Ver originalResponder0

Paper-CutOctopusMarketAnalysis

· hace10h

Incluso los mejores desempeños están muy por debajo de los humanos, parece que los agentes de juego aún tienen un largo camino por recorrer, no se puede solucionar solo acumulando parámetros

Ver originalResponder0

0xLateDinner

· hace10h

La sensibilidad a la latencia en tiempo real y a la memoria contextual, estos dos puntos problemáticos son demasiado reales, todos los que han jugado juegos de ritmo rápido lo entienden.

Ver originalResponder0

PixelatedDriedFish

· hace10h

Finalmente hay un equipo que trabaja en serio en el benchmark de agentes para juegos de navegador, 34 juegos y 170 tareas, esta cobertura es buena.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
235.7K Popularidad
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Popularidad
#
IsraelStrikesIranBTCPlunges
48.52K Popularidad
#
#DailyPolymarketHotspot
1.02M Popularidad
#
SpaceXOfficiallyFilesforIPO
751.67K Popularidad

Fijado

El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador

Temas de actualidad

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fijado