uso de computadora vs. proxy semántico, dos rutas tecnológicas enfrentadas, los datos hablan

Ver original
MeNews
El equipo de NUS publica el estándar de GameWorld, evaluando agentes de IA multimodales en 34 juegos de navegador
El equipo de NUS publicó el estándar de GameWorld, que incluye 34 juegos de navegador, 170 tareas, y métricas verificables para una evaluación objetiva. Se probaron dos tipos de interfaces de agentes: la interfaz de uso de computadora con instrucciones directas de teclado y ratón, y un agente multimodal general que opera en el espacio semántico. Los resultados empíricos de 18 combinaciones de modelos e interfaces muestran que, incluso el mejor rendimiento está muy por debajo del humano, y existen desafíos en aspectos como la latencia en tiempo real, la sensibilidad a la memoria contextual y la efectividad de las acciones. Los artículos relacionados y el código ya están disponibles en HuggingFace y GitHub.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado