La Fundación ARC Prize ha publicado el conjunto de datos de rendimiento humano de ARC-AGI-3, que incluye los resultados de pruebas de 458 participantes en 135 entornos de razonamiento abstracto sin instrucciones de juego. Todos los entornos fueron superados por humanos y aún no se ha logrado demostrar AGI. Además, la fundación ajustó las reglas de puntuación, haciendo que las puntuaciones humanas y de IA aumentaran ligeramente.

MeNews

2026-05-06 16:49:18

Generación de resúmenes en curso

Noticias ME News, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos ellos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, donde los probadores no reciben instrucciones de juego, deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, midiendo la capacidad de aprender y adaptarse ante problemas completamente nuevos. Humanos y IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: todos los entornos de ARC-AGI-3 han sido superados por humanos, con al menos dos participantes independientes completando cada entorno, y la mayoría con más de cinco. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido cerca de un millón de envíos de evaluaciones de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto de la suerte en la puntuación; segundo, aumentar el límite de puntuación por entorno del 100% al 115%, para evitar que un mal rendimiento en un entorno arruine la puntuación general. El efecto neto de estos ajustes es que las puntuaciones de humanos y IA aumentaron ligeramente, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
453.79K Popularidad
#
BitcoinHoldsFirmAbove80K
94.31M Popularidad
#
CryptoMarketRecovery
121.81K Popularidad
#
IsraelStrikesIranBTCPlunges
43.32K Popularidad
#
AaveSuesToUnfreeze73MInETH
1.84M Popularidad

Anclado

ARC-AGI-3 anuncia la prueba humana de mayor escala de la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

Temas de actualidad

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Anclado