El equipo de NUS publicó el estándar de GameWorld, que incluye 34 juegos de navegador, 170 tareas, y métricas verificables para una evaluación objetiva. Se probaron dos tipos de interfaces de proxy: la interfaz de uso de computadora con instrucciones directas de teclado y ratón, y un proxy multimodal general que opera en el espacio semántico. Los resultados empíricos de 18 combinaciones de modelos e interfaces muestran que, incluso los mejores rendimientos están muy por debajo de los humanos, y existen desafíos en aspectos como la latencia en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones. La publicación y el código relacionados ya están disponibles en HuggingFace y GitHub.

MeNews

2026-05-21 19:59:48

Generación de resúmenes en curso

ME Noticias Información, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, el equipo de la Universidad Nacional de Singapur (NUS) lanzó GameWorld, una prueba de referencia diseñada para estandarizar la evaluación de la capacidad de los modelos de lenguaje multimodal (MLLM) como agentes universales en videojuegos. El estudio señala que, aunque los videojuegos ofrecen un entorno ideal para pruebas de retroalimentación cerrada, las evaluaciones existentes a menudo están limitadas por interfaces de operación no uniformes y validaciones heurísticas manuales.
GameWorld incluye 34 juegos de navegador diversos y 170 tareas, y proporciona métricas verificables basadas en el estado subyacente del juego para cada tarea, con el fin de lograr una evaluación objetiva de los resultados.
El equipo de investigación probó dos tipos de interfaces de agentes: uno es el agente de "uso de computadora" que produce instrucciones de teclado y ratón directamente, y el otro es un agente multimodal general que opera en un espacio de acciones semánticas mediante análisis semántico.
En una prueba a gran escala de 18 combinaciones de "modelo-interfaz", los resultados mostraron que incluso los agentes de IA con mejor rendimiento actualmente están muy por debajo del nivel humano en capacidades de juego.
El estudio también reveló desafíos severos en aspectos como la latencia en la interacción en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones en los agentes de juego.
El artículo relacionado y el código del proyecto ya están disponibles públicamente en Hugging Face y GitHub. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

13 me gusta

Recompensa
13
5
7
Compartir

Comentar

Añadir un comentario

FrontrunTherapy

· hace3h

La demora en tiempo real y la memoria contextual, estos dos problemas, probablemente no se puedan solucionar en medio año.

Ver originalResponder0

GateUser-c4e25c95

· hace3h

Las instrucciones de teclado y ratón son demasiado agresivas, la multimodalidad universal es la verdadera solución

Ver originalResponder0

StakingDaydreamer

· hace3h

La baja efectividad de la acción indica que la capa de planificación sigue siendo débil, la cadena percepción-decisión no está conectada.

Ver originalResponder0

ExitLiquidityPoet

· hace3h

Código abierto recibe buenas críticas, la barrera para reproducirla ha bajado, la comunidad puede iterar juntas

Ver originalResponder0

RevokingPermissionsOnARainy

· hace3h

El entorno del navegador es más difícil de lo que se imagina, los cambios en el DOM son rápidos, el estado es implícito, y el agente puede confundirse fácilmente.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
236.31K Popularidad
#
GrayscaleBuysAndStakesOver510KHYPE
8.92M Popularidad
#
IsraelStrikesIranBTCPlunges
48.54K Popularidad
#
#DailyPolymarketHotspot
1.01M Popularidad
#
SpaceXOfficiallyFilesforIPO
751.82K Popularidad

Fijado

El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador

Temas de actualidad

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fijado