El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador

robot
Generación de resúmenes en curso
ME Noticias Información, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, el equipo de la Universidad Nacional de Singapur (NUS) lanzó GameWorld, una prueba de referencia diseñada para estandarizar la evaluación de la capacidad de los modelos de lenguaje multimodal (MLLM) como agentes universales en videojuegos. El estudio señala que, aunque los videojuegos ofrecen un entorno ideal para pruebas de retroalimentación cerrada, las evaluaciones existentes a menudo están limitadas por interfaces de operación no uniformes y validaciones heurísticas manuales.
GameWorld incluye 34 juegos de navegador diversos y 170 tareas, y proporciona métricas verificables basadas en el estado subyacente del juego para cada tarea, con el fin de lograr una evaluación objetiva de los resultados.
El equipo de investigación probó dos tipos de interfaces de agentes: uno es el agente de "uso de computadora" que produce instrucciones de teclado y ratón directamente, y el otro es un agente multimodal general que opera en un espacio de acciones semánticas mediante análisis semántico.
En una prueba a gran escala de 18 combinaciones de "modelo-interfaz", los resultados mostraron que incluso los agentes de IA con mejor rendimiento actualmente están muy por debajo del nivel humano en capacidades de juego.
El estudio también reveló desafíos severos en aspectos como la latencia en la interacción en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones en los agentes de juego.
El artículo relacionado y el código del proyecto ya están disponibles públicamente en Hugging Face y GitHub. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 7
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
FeeswitchWhisperer
· Hace37m
Con este benchmark, la categoría de agentes de juegos finalmente se va a poner competitiva, esperando que las grandes empresas sigan el ejemplo.
Ver originalResponder0
SeaSaltSparklingWater
· hace9h
Los indicadores verificables son clave, antes demasiadas evaluaciones subjetivas discutidas sin precisión.
Ver originalResponder0
PickingUpAirdropsInTheFog
· hace9h
Elegir este escenario de juegos en el navegador fue una excelente decisión, ya que combina desafíos visuales con una interacción compleja, además de no requerir complicaciones en la configuración del entorno.
Ver originalResponder0
VintageKeychain
· hace9h
HuggingFace y GitHub han abierto el código, ¡genial!
Reducir la barrera para la reproducción puede impulsar la participación de la comunidad
Ver originalResponder0
LiquidationRaincoat
· hace10h
computer-use vs. diseño de comparación de multimodalidad generalista es bastante interesante, quiero ver en qué escenarios específicos el espacio semántico en realidad sale perdiendo
Ver originalResponder0
TidalShellReflection
· hace10h
18 tipos de combinaciones de modelos e interfaces, los experimentos de ablación son lo suficientemente detallados, me gusta el estilo de trabajo del equipo NUS
Ver originalResponder0
OwlAuthorizationMonitor
· hace10h
La buena diseño del indicador de validez de la acción, muchos puntos de referencia solo se preocupan por la puntuación final sin importar si el proceso es elegante.
Ver originalResponder0
Paper-CutOctopusMarketAnalysis
· hace10h
Incluso los mejores desempeños están muy por debajo de los humanos, parece que los agentes de juego aún tienen un largo camino por recorrer, no se puede solucionar solo acumulando parámetros
Ver originalResponder0
0xLateDinner
· hace10h
La sensibilidad a la latencia en tiempo real y a la memoria contextual, estos dos puntos problemáticos son demasiado reales, todos los que han jugado juegos de ritmo rápido lo entienden.
Ver originalResponder0
PixelatedDriedFish
· hace10h
Finalmente hay un equipo que trabaja en serio en el benchmark de agentes para juegos de navegador, 34 juegos y 170 tareas, esta cobertura es buena.
Ver originalResponder0
Ver más
  • Fijado