Espacio de acciones semánticas vs control directo de teclado y ratón, comparación de dos interfaces para ver los datos

Ver original
MeNews
El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador
ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, el equipo de la Universidad Nacional de Singapur (NUS) lanzó GameWorld, una prueba de referencia diseñada para estandarizar la evaluación de modelos de lenguaje multimodal (MLLM) como capacidades de agentes universales en videojuegos. El estudio señala que, aunque los videojuegos ofrecen un entorno ideal para pruebas de retroalimentación cerrada, las evaluaciones existentes a menudo están limitadas por interfaces de operación no uniformes y validaciones heurísticas manuales. GameWorld incluye 34 juegos de navegador diversos y 170 tareas, y proporciona métricas verificables basadas en el estado subyacente del juego para cada tarea, con el fin de lograr una evaluación objetiva de los resultados. El equipo de investigación probó dos tipos de interfaces de agentes: uno es el agente de "uso de computadora" que produce instrucciones de teclado y ratón directamente, y el otro es a través de análisis semántico en un espacio de acciones semánticas.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado