La Fundación del Premio ARC ha publicado el conjunto de datos de rendimiento humano ARC-AGI-3, que incluye los resultados de pruebas de 458 participantes en 135 entornos de razonamiento abstracto sin instrucciones de juego. Todos los entornos fueron superados por humanos y la demostración aún no ha logrado alcanzar la AGI. Al mismo tiempo, la fundación ajustó las reglas de puntuación, haciendo que las puntuaciones humanas y de IA aumentaran ligeramente.

MeNews

2026-04-15 06:22:49

Generación de resúmenes en curso

Noticias ME, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos ellos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, en los que los probadores no reciben instrucciones de juego, sino que deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, evaluando la capacidad de aprender y adaptarse a problemas completamente nuevos. Tanto humanos como IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: todos los entornos de ARC-AGI-3 han sido superados por humanos, con al menos dos participantes independientes completando cada entorno, y la mayoría con más de cinco. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, y este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido casi un millón de envíos de evaluación de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano en cada nivel de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto del azar en la puntuación; segundo, aumentar el límite de puntuación en un nivel del 100% al 115%, para evitar que un mal rendimiento en una prueba arruine el resultado general. El efecto neto de estos ajustes es que las puntuaciones tanto humanas como de IA aumentaron ligeramente, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
111.93K Popularidad
#
GateMarchTransparencyReport
38.1K Popularidad
#
IsraelStrikesIranBTCPlunges
29.69K Popularidad
#
GoldmanSachsFilesBitcoinIncomeETF
772.84K Popularidad
#
USBlocksStraitofHormuz
745.46K Popularidad

Anclado

ARC-AGI-3 anuncia la prueba humana de mayor escala en la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Anclado