ARC-AGI-3 anuncia la prueba humana de mayor escala de la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

robot
Generación de resúmenes en curso

Noticias ME News, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos ellos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, donde los probadores no reciben instrucciones de juego, deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, midiendo la capacidad de aprender y adaptarse ante problemas completamente nuevos. Humanos y IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: todos los entornos de ARC-AGI-3 han sido superados por humanos, con al menos dos participantes independientes completando cada entorno, y la mayoría con más de cinco. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido cerca de un millón de envíos de evaluaciones de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto de la suerte en la puntuación; segundo, aumentar el límite de puntuación por entorno del 100% al 115%, para evitar que un mal rendimiento en un entorno arruine la puntuación general. El efecto neto de estos ajustes es que las puntuaciones de humanos y IA aumentaron ligeramente, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado