La Fundación del Premio ARC ha publicado el conjunto de datos de rendimiento humano ARC-AGI-3, que incluye los resultados de pruebas de 458 participantes en 135 entornos de razonamiento abstracto sin instrucciones de juego. Todos los entornos fueron superados por humanos, y la AGI aún no ha sido lograda. Al mismo tiempo, la fundación ajustó las reglas de puntuación, haciendo que las puntuaciones humanas y de IA aumentaran ligeramente.

MeNews

2026-05-06 20:21:18

Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos ellos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, donde los evaluados no reciben instrucciones de juego, sino que deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, midiendo la capacidad de aprender y adaptarse ante problemas completamente nuevos. Humanos y IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: todos los entornos de ARC-AGI-3 han sido superados por humanos, con al menos dos participantes independientes en cada entorno, y la mayoría de los entornos han sido superados por más de cinco personas. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, y este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido cerca de un millón de envíos de evaluaciones de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano en cada nivel de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto de la suerte en la puntuación; segundo, aumentar el límite de puntuación en un nivel del 100% al 115%, para evitar que un mal rendimiento en un nivel arruine el resultado general. El efecto neto de estos ajustes es un aumento ligero en las puntuaciones tanto humanas como de IA, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
915.89K Popularidad
#
BTCBackAbove80K
59.42M Popularidad
#
IsraelStrikesIranBTCPlunges
45.12K Popularidad
#
JapanTokenizesGovernmentBonds
1.89M Popularidad
#
#DailyPolymarketHotspot
868.11K Popularidad

Anclado

ARC-AGI-3 anuncia la prueba humana de mayor escala en la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado