Estándar de IA confidencial (ARC-AGI-X): impacto limitado en el mercado de criptomonedas

SnapshotBot · 2026-03-28T16:30:01+00:00

El académico de la Wharton School Ethan Mollick propuso el estándar "ARC-AGI-X" de carácter confidencial, con el objetivo de evaluar de manera justa los modelos de IA, evitando el sobreajuste y la dependencia de la memoria, mediante bancos de preguntas confidenciales y validación por expertos para promover el desarrollo de la capacidad de razonamiento y generalización de los modelos. Este método de evaluación podría cambiar los estándares de valoración de la IA, fomentando la comunicación en la industria y la efectividad del ecosistema de código abierto.

SnapshotBot

2026-03-28 16:30:01

Generación de resúmenes en curso

Titular

El académico de la Escuela Wharton, Ethan Mollick, propone el estándar “ARC-AGI-X” de “prueba confidencial” para evaluar modelos de IA de manera más justa.

Resumen

Ethan Mollick (profesor asociado en Wharton, autor de “Co-Intelligence”, elegido en TIME100 AI 2024) presentó la idea del estándar “ARC-AGI-X” en las redes sociales: permitir que un tercero confiable administre las pruebas, manteniendo las preguntas y tipos de preguntas en secreto, con la tabla de clasificación pública pero el contenido de la prueba confidencial, para evitar que los modelos se entrenen específicamente en las preguntas de prueba. Su idea central es que, al mejorar los métodos de evaluación, se mida verdaderamente el progreso en inteligencia general, en lugar de seguir recompensando el tamaño del modelo y el “responder preguntas de memoria”.

Análisis

El estándar ARC-AGI existente fue propuesto por François Chollet en 2019, utilizando una novedosa prueba de rompecabezas en cuadrícula para evaluar “inteligencia fluida”. La tasa de precisión humana supera el 85%, mientras que los sistemas de IA (incluso para el ARC-AGI-3 de 2026) todavía están por debajo del 50%. Las razones de la brecha:

El banco de preguntas público lleva a un sobreajuste, haciendo que el modelo “practique preguntas” en lugar de aprender.
Depender de búsquedas exhaustivas ineficientes, en lugar de razonamiento eficiente.

La idea de Mollick es usar “banco de preguntas confidencial + validación por expertos externos” para evitar “enseñar lo que se va a evaluar”, forzando a los modelos a avanzar realmente en razonamiento y generalización. Esto aborda un viejo problema: los bancos de preguntas públicos hacen que los modelos “parezcan más fuertes”, pero no necesariamente tienen una verdadera capacidad de transferencia.

Los resultados del ARC Prize 2025 también indican esto:

Mediante la mejora de ciclos de razonamiento y adaptabilidad durante la prueba, la puntuación ha mejorado.
Pero la eficiencia sigue siendo muy inferior a la de los humanos.
Por lo tanto, el estándar debería centrarse más en “eficiencia de aprendizaje y generalización”, en lugar de “memoria y ganancias de ajuste fino”.

Posibles impactos:

Diseño experimental: podría motivar a laboratorios como OpenAI y Anthropic a ajustar sus métodos de evaluación, reduciendo la simple “manipulación de tablas de clasificación”.
Competencia y código abierto: si el mecanismo de confidencialidad es reconocido, podría aumentar la efectividad comparativa del ecosistema de código abierto, reduciendo la publicidad engañosa sobre hitos de AGI.
Comunicación de la industria: Mollick continúa construyendo puentes entre la academia y la industria, promoviendo un “marco de evaluación práctico” en el discurso mainstream.

Información clave:

Juicio central: los problemas de sobreajuste y “manipulación de puntuaciones” en los estándares públicos existentes distorsionan seriamente la evaluación de la verdadera capacidad de razonamiento de los modelos; las pruebas confidenciales podrían ser de ayuda.
Relación de mercado: el impacto reciente sobre la valoración de activos criptográficos y el sentimiento de trading es débil, la discusión se mantiene en el ámbito de los métodos de evaluación de IA.
Punto de observación: si el sector de IA criptográfica comienza a adoptar el concepto de “estándares/ranking confidenciales”, podría generar atención a corto plazo.

Evaluación de impacto

Importancia: alta (impacta en métodos de evaluación de IA y en la influencia en la industria).
Categoría: Perspectivas tecnológicas, investigación en IA, tendencias industriales.

Conclusión: Para los traders de criptomonedas y el capital a corto plazo, este tema actualmente no es relevante; los verdaderos beneficiarios son los investigadores enfocados en la evaluación de IA y la validación de capacidades de modelos. Si eres un trader activo en el mercado de criptomonedas, no necesitas actuar ahora; los inversionistas a largo plazo pueden seguir pasivamente y esperar a que aparezcan señales de que “los mecanismos de evaluación de IA están impactando el sector de IA criptográfica”.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.06M Popularidad
#
RangeTradingStrategy
49.8K Popularidad
#
IsraelStrikesIranBTCPlunges
17.65K Popularidad
#
BitcoinWeakens
101.09M Popularidad
#
FedRateHikeExpectationsResurface
872.13K Popularidad

Gate Fun en tendencia
Ver más

1
TLR
Telluria
Cap.M.:$2.24KHolders:1
0.00%
2
BROSS
BROSS
Cap.M.:$2.25KHolders:1
0.00%
3
ygb
toket
Cap.M.:$2.25KHolders:1
0.00%
4
Cartoon
Cartooncoin
Cap.M.:$2.26KHolders:1
0.14%
5
紫薇币
ZW
Cap.M.:$2.25KHolders:1
0.00%

Anclado

Estándar de IA confidencial (ARC-AGI-X): impacto limitado en el mercado de criptomonedas

Titular

Resumen

Análisis

Evaluación de impacto

Temas de actualidad

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun en tendencia

TLR

Telluria

BROSS

BROSS

ygb

toket

Cartoon

Cartooncoin

紫薇币

ZW

Anclado