ARC-AGI-3 anuncia la prueba humana de mayor escala en la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

robot
Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos ellos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, donde los evaluados no reciben instrucciones de juego, sino que deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, midiendo la capacidad de aprender y adaptarse ante problemas completamente nuevos. Humanos y IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: todos los entornos de ARC-AGI-3 han sido superados por humanos, con al menos dos participantes independientes en cada entorno, y la mayoría de los entornos han sido superados por más de cinco personas. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, y este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido cerca de un millón de envíos de evaluaciones de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano en cada nivel de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto de la suerte en la puntuación; segundo, aumentar el límite de puntuación en un nivel del 100% al 115%, para evitar que un mal rendimiento en un nivel arruine el resultado general. El efecto neto de estos ajustes es un aumento ligero en las puntuaciones tanto humanas como de IA, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado