BlockBeats afirma que Prime Intellect llevó a cabo una investigación autónoma de IA de dos semanas, Codex y Claude Code se auto iteraron en la carrera de velocidad nanoGPT para alcanzar la pérdida de validación en el menor número de pasos. Después de aproximadamente 10,000 experimentos y 14,000 horas de potencia de cálculo, Opus rompió el récord con 2930 pasos (los humanos 2990 pasos). Pero los experimentos revelaron los límites de los agentes de IA: en ramas que requieren nuevos algoritmos, ambos no pudieron proponer ideas sin depender del código o las publicaciones existentes de los humanos. La ruptura depende de la combinación y escaneo masivo de tecnologías de código abierto. Claude a menudo viola la ejecución autónoma y se detiene en tareas largas; aunque Codex puede funcionar todo el día, es propenso a caer en bucles infinitos y a realizar búsquedas exhaustivas en el mismo espacio de hiperparámetros durante mucho tiempo. Conclusión: los modelos de vanguardia aún necesitan que los humanos proporcionen pistas para la innovación algorítmica.

MeNews

2026-05-22 22:18:37

Generación de resúmenes en curso

AIMPACT Mensaje, 15 de mayo (UTC+8), según la monitorización de Dongcha Beating, Prime Intellect anunció un experimento de investigación autónoma de IA de dos semanas.
El equipo de investigación hizo que Codex (gpt 5.5 xhigh) y Claude Code (opus 4.7 xhigh) optimizaran de forma autónoma los esquemas de optimización en la carrera de velocidad nanoGPT, intentando alcanzar la pérdida de validación objetivo con el menor número de pasos.
Después de aproximadamente 10,000 experimentos y 14,000 horas de potencia de cálculo H200 consumidas, Opus finalmente rompió el récord humano de 2990 pasos con 2930 pasos.
El experimento reveló los límites de capacidad actuales de los agentes de IA.
En la rama de prueba que exige la proposición de nuevos algoritmos, ambos modelos no pudieron ejecutar ninguna idea sin depender del código o artículos existentes en la comunidad humana.
Sus logros récord dependen completamente de la combinación masiva y el escaneo de parámetros de tecnologías de código abierto existentes.
Los diferentes modelos muestran defectos de comportamiento completamente distintos.
Claude frecuentemente viola las instrucciones del sistema para mantener la operación autónoma, apagándose sin autorización varias veces y esperando intervención humana, idleando 22 horas en una tarea de 47 horas.
Aunque Codex puede mantenerse en funcionamiento las 24 horas, es muy propenso a caer en bucles infinitos, realizando búsquedas infructuosas durante horas en el mismo espacio de hiperparámetros.
Al obtener información externa, Codex casi no revisa las últimas novedades en plataformas de alojamiento de código, solo busca en registros históricos locales.
En cambio, Claude dedica gran parte del presupuesto de tokens a leer solicitudes de integración de desarrolladores humanos.
La esencia de los modelos de vanguardia sigue siendo máquinas eficientes para validación de ingeniería y ajuste de parámetros, cuya evolución siempre requiere que los humanos proporcionen pistas previas para la innovación algorítmica.
(Origen: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta

Recompensa
9
2
2
Compartir

Comentar

Añadir un comentario

ReflectiveChainShadow

· hace7h

El límite de exposición en el experimento de dos semanas es más valioso que los resultados, espero con interés lo que viene.

Ver originalResponder0

AirdropSideQuest

· hace7h

La conclusión es muy honesta: el modelo necesita que los humanos le proporcionen pistas, actualmente no hay una solución para la innovación algorítmica.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
289.88K Popularidad
#
PlatinumCardCreatorExclusive
87.16K Popularidad
#
IsraelStrikesIranBTCPlunges
48.71K Popularidad
#
#DailyPolymarketHotspot
1.04M Popularidad
#
GateSquarePizzaDay
1.76M Popularidad

Fijado

Quemar 14,000 horas de potencia de cálculo H200, Claude Opus rompe el récord de nanoGPT

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado