El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador

robot
Generación de resúmenes en curso
ME Noticias Información, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, el equipo de la Universidad Nacional de Singapur (NUS) lanzó GameWorld, una prueba de referencia diseñada para estandarizar la evaluación de la capacidad de los modelos de lenguaje multimodal (MLLM) como agentes universales en videojuegos. El estudio señala que, aunque los videojuegos ofrecen un entorno ideal para pruebas de retroalimentación cerrada, las evaluaciones existentes a menudo están limitadas por interfaces de operación no uniformes y validaciones heurísticas manuales.
GameWorld incluye 34 juegos de navegador diversos y 170 tareas, y proporciona métricas verificables basadas en el estado subyacente del juego para cada tarea, con el fin de lograr una evaluación objetiva de los resultados.
El equipo de investigación probó dos tipos de interfaces de agentes: uno es el agente de "uso de computadora" que produce instrucciones de teclado y ratón directamente, y el otro es un agente multimodal general que opera en un espacio de acciones semánticas mediante análisis semántico.
En una prueba a gran escala de 18 combinaciones de "modelo-interfaz", los resultados mostraron que incluso los agentes de IA con mejor rendimiento actualmente están muy por debajo del nivel humano en capacidades de juego.
El estudio también reveló desafíos severos en aspectos como la latencia en la interacción en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones en los agentes de juego.
El artículo relacionado y el código del proyecto ya están disponibles públicamente en Hugging Face y GitHub. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • 7
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
FrontrunTherapy
· hace3h
La demora en tiempo real y la memoria contextual, estos dos problemas, probablemente no se puedan solucionar en medio año.
Ver originalResponder0
GateUser-c4e25c95
· hace3h
Las instrucciones de teclado y ratón son demasiado agresivas, la multimodalidad universal es la verdadera solución
Ver originalResponder0
StakingDaydreamer
· hace3h
La baja efectividad de la acción indica que la capa de planificación sigue siendo débil, la cadena percepción-decisión no está conectada.
Ver originalResponder0
ExitLiquidityPoet
· hace3h
Código abierto recibe buenas críticas, la barrera para reproducirla ha bajado, la comunidad puede iterar juntas
Ver originalResponder0
RevokingPermissionsOnARainy
· hace3h
El entorno del navegador es más difícil de lo que se imagina, los cambios en el DOM son rápidos, el estado es implícito, y el agente puede confundirse fácilmente.
Ver originalResponder0
  • Fijado