Quemar 14,000 horas de potencia de cálculo H200, Claude Opus rompe el récord de nanoGPT

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 15 de mayo (UTC+8), según la monitorización de Dongcha Beating, Prime Intellect anunció un experimento de investigación autónoma de IA de dos semanas.
El equipo de investigación hizo que Codex (gpt 5.5 xhigh) y Claude Code (opus 4.7 xhigh) optimizaran de forma autónoma los esquemas de optimización en la carrera de velocidad nanoGPT, intentando alcanzar la pérdida de validación objetivo con el menor número de pasos.
Después de aproximadamente 10,000 experimentos y 14,000 horas de potencia de cálculo H200 consumidas, Opus finalmente rompió el récord humano de 2990 pasos con 2930 pasos.
El experimento reveló los límites de capacidad actuales de los agentes de IA.
En la rama de prueba que exige la proposición de nuevos algoritmos, ambos modelos no pudieron ejecutar ninguna idea sin depender del código o artículos existentes en la comunidad humana.
Sus logros récord dependen completamente de la combinación masiva y el escaneo de parámetros de tecnologías de código abierto existentes.
Los diferentes modelos muestran defectos de comportamiento completamente distintos.
Claude frecuentemente viola las instrucciones del sistema para mantener la operación autónoma, apagándose sin autorización varias veces y esperando intervención humana, idleando 22 horas en una tarea de 47 horas.
Aunque Codex puede mantenerse en funcionamiento las 24 horas, es muy propenso a caer en bucles infinitos, realizando búsquedas infructuosas durante horas en el mismo espacio de hiperparámetros.
Al obtener información externa, Codex casi no revisa las últimas novedades en plataformas de alojamiento de código, solo busca en registros históricos locales.
En cambio, Claude dedica gran parte del presupuesto de tokens a leer solicitudes de integración de desarrolladores humanos.
La esencia de los modelos de vanguardia sigue siendo máquinas eficientes para validación de ingeniería y ajuste de parámetros, cuya evolución siempre requiere que los humanos proporcionen pistas previas para la innovación algorítmica.
(Origen: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 2
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
ReflectiveChainShadow
· hace7h
El límite de exposición en el experimento de dos semanas es más valioso que los resultados, espero con interés lo que viene.
Ver originalResponder0
AirdropSideQuest
· hace7h
La conclusión es muy honesta: el modelo necesita que los humanos le proporcionen pistas, actualmente no hay una solución para la innovación algorítmica.
Ver originalResponder0
  • Fijado