¿Está aquí la AGI? Ni siquiera cerca, sugiere un nuevo estándar de referencia en IA

Question

#### En resumen* ARC-AGI-3 revela una brecha enorme entre las afirmaciones de AGI y la realidad, con los principales modelos de IA puntuando por debajo del 1% mientras los humanos logran un rendimiento perfecto.* La prueba evalúa la verdadera generalización—requiere que los agentes exploren, planifiquen y aprendan desde cero en entornos desconocidos, en lugar de recordar patrones entrenados.* A pesar del bombo en la industria, los sistemas de IA actuales están muy lejos de ser AGI, careciendo del razonamiento y la adaptabilidad que incluso los jóvenes humanos muestran de forma natural.El CEO de Nvidia, Jensen Huang, participó la semana pasada en el podcast de Lex Fridman y dijo, claramente, "Creo que hemos logrado la AGI." Dos días después, la prueba más rigurosa en investigación de IA lanzó su nuevo benchmark de inteligencia general artificial—y todos los modelos de frontera puntuaron por debajo del 1%.La Fundación Premio ARC lanzó esta semana el ARC-AGI-3, y los resultados son duros. Gemini 3.1 Pro de Google lideró con un 0.37%. GPT-5.4 de OpenAI obtuvo un 0.26%. Claude Opus 4.6 de Anthropic logró un 0.25%, mientras que Grok-4.20 de xAI puntuó exactamente cero. Los humanos, en cambio, resolvieron el 100% de los entornos.Esto no es una prueba de trivialidades ni un examen de codificación, ni siquiera preguntas ultra difíciles de nivel PhD. ARC-AGI-3 es algo completamente diferente a cualquier cosa que la industria de IA haya enfrentado antes.El benchmark fue creado por la fundación de François Chollet y Mike Knoop, que montaron un estudio de juegos interno y desarrollaron 135 entornos interactivos originales desde cero. La idea es poner a un agente de IA en un mundo de juego desconocido, sin instrucciones, sin objetivos establecidos y sin descripción de las reglas. El agente debe explorar, entender qué se supone que debe hacer, formar un plan y ejecutarlo.Si eso suena como algo que cualquier niño de cinco años puede hacer, estás empezando a entender el problema. Si quieres ver si tú eres mejor que la IA, puedes jugar los mismos juegos que en la prueba haciendo clic en este enlace. Probamos uno; al principio fue raro, pero en unos segundos, puedes acostumbrarte fácilmente.![](https://img-cdn.gateio.im/social/moments-c53df22efd-be5761a04c-8b7abd-ceda62)También es el ejemplo más claro de lo que significa la “G” en AGI. Cuando generalizas, puedes crear nuevo conocimiento (cómo funciona un juego raro) sin haber sido entrenado en ello previamente.Versiones anteriores de ARC probaban rompecabezas visuales estáticos—mostrar un patrón, predecir el siguiente. Al principio eran difíciles. Luego, los laboratorios les echaron potencia de cálculo y entrenamiento hasta que los benchmarks quedaron prácticamente muertos. ARC-AGI-1, lanzado en 2019, se centró en modelos de entrenamiento y razonamiento en tiempo de prueba. ARC-AGI-2 duró aproximadamente un año antes de que Gemini 3.1 Pro alcanzara un 77.1%. Los laboratorios son muy buenos saturando benchmarks contra los que pueden entrenar.La versión 3 fue diseñada específicamente para evitar eso. Con 110 de los 135 entornos en privado—55 semi-privados para pruebas de API, 55 completamente cerrados para competencia—no hay conjunto de datos para memorizar. No puedes forzar una lógica de juego novedosa que nunca has visto.La puntuación tampoco es pass/fail. ARC-AGI-3 usa lo que la fundación llama RHAE—Eficiencia Relativa de Acción Humana. La referencia es el rendimiento humano en segundo lugar en la primera prueba. Un IA que toma diez veces más acciones que un humano obtiene un 1% en ese nivel, no un 10%. La fórmula eleva al cuadrado la penalización por ineficiencia. Vagabundear, retroceder y adivinar la respuesta se castiga duramente. El mejor agente de IA en la vista previa de un mes para desarrolladores obtuvo un 12.58%. Los LLM de frontera probados a través de la API oficial, sin herramientas personalizadas, no lograron superar el 1%. Los humanos comunes resolvieron los 135 entornos sin entrenamiento previo ni instrucciones. Si ese es el estándar, los modelos actuales no lo están alcanzando.Hay un debate metodológico real aquí. El informe de ARC dice que un sistema personalizado desarrollado en Duke llevó a Claude Opus 4.6 del 0.25% al 97.1% en una variante de entorno llamada TR87. Eso no significa que Claude haya puntuado 97.1% en ARC-AGI-3 en general; su puntuación oficial en el benchmark permaneció en 0.25%, pero el cambio aún es notable.El benchmark oficial alimenta a los agentes con código JSON, no con visuales. Eso puede ser un fallo metodológico o una demostración de que los modelos de hoy son mejores procesando información amigable para humanos que datos estructurados en bruto. La fundación de Chollet ha reconocido el debate, pero no cambiará el formato.“La percepción del contenido del marco y el formato de la API no son factores limitantes para el rendimiento de los modelos de frontera en ARC-AGI-3,” dice el documento. En otras palabras, parecen rechazar la idea de que los modelos fallan porque “no pueden ver” correctamente las tareas, argumentando en cambio que la percepción ya es suficiente—y que la verdadera brecha está en el razonamiento y la generalización.La evaluación de la realidad de la AGI llegó en una semana en la que la máquina de hype funcionaba a toda velocidad. Además de la declaración de Huang, Arm nombró su nuevo chip de centro de datos como "CPU AGI". Sam Altman de OpenAI ha dicho que han "básicamente construido AGI," y Microsoft ya promociona un laboratorio enfocado en construir ASI: una evolución de lo que viene después de lograr la AGI. El término se está estirando hasta que significa lo que sea comercialmente conveniente, parece.La posición de Chollet es más simple. Si un humano normal sin instrucciones puede hacerlo, y tu sistema no, entonces no tienes AGI—tienes un autocompletador muy caro que necesita mucha ayuda.El Premio ARC 2026 ofrece 2 millones de dólares en tres categorías de competencia, todas en Kaggle. Cada solución ganadora debe ser de código abierto. El reloj corre, y por ahora, las máquinas ni siquiera están cerca.### Boletín Diario de ResumenComienza cada día con las principales noticias del momento, además de artículos originales, un podcast, videos y más.Tu Email¡Consíguelo!¡Consíguelo!

¿Está aquí la AGI? Ni siquiera cerca, sugiere un nuevo estándar de referencia en IA

En resumen

Boletín Diario de Resumen

Temas de actualidad

PreIPOsSeason2OpenAISubscription

GateDEXIntegratesWithRobinhoodChain

IsraelStrikesIranBTCPlunges

TSMCQ2NetProfitSurges77%

SummerCreationCamp

Fijado