HuggingFace y GitHub ambos han abierto su código, bajando la barrera para la reproducción, la comunidad puede seguir el ritmo

Ver original
MeNews
El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador
El equipo de NUS publicó el estándar de GameWorld, que incluye 34 juegos de navegador, 170 tareas, y métricas verificables para una evaluación objetiva. Se probaron dos tipos de interfaces de proxy: la interfaz de uso de computadora con instrucciones directas de teclado y ratón, y un proxy multimodal general que opera en el espacio semántico. Los resultados empíricos de 18 combinaciones de modelos e interfaces muestran que, incluso los mejores rendimientos, están muy por debajo de los humanos, y existen desafíos en aspectos como la latencia en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones. La publicación y el código relacionados ya están disponibles en HuggingFace y GitHub.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado