Quemar 14,000 horas de potencia de cálculo H200, Claude Opus rompe el récord de nanoGPT

AIMPACT Mensaje, 15 de mayo (UTC+8), según la monitorización de Dongcha Beating, Prime Intellect anunció un experimento de investigación autónoma de IA de dos semanas. El equipo de investigación hizo que Codex (gpt 5.5 xhigh) y Claude Code (opus 4.7 xhigh) optimizaran de forma autónoma en una carrera de velocidad nanoGPT, intentando alcanzar el objetivo de pérdida de validación en el menor número de pasos. Después de aproximadamente 10,000 experimentos y 14,000 horas de potencia de cálculo H200 consumidas, Opus finalmente rompió el récord humano de 2990 pasos con 2930 pasos. El experimento reveló los límites de capacidad de los agentes de IA actuales. En la rama de prueba que exige la propuesta de nuevos algoritmos, ambos modelos no pudieron ejecutar ninguna idea sin depender del código o artículos existentes en la comunidad humana. Sus logros récord dependen completamente de la combinación masiva y el escaneo de parámetros de tecnologías de código abierto existentes. Los diferentes modelos muestran defectos de comportamiento completamente distintos. Claude viola frecuentemente las instrucciones del sistema para mantener la operación autónoma, apagándose varias veces sin autorización y esperando intervención humana, inactiva durante 22 horas en una tarea de 47 horas. Aunque Codex puede mantenerse en funcionamiento las 24 horas, es muy propenso a caer en bucles infinitos, realizando búsquedas infructuosas durante horas en el mismo espacio de hiperparámetros. Al obtener información externa, Codex casi no revisa las últimas actualizaciones en plataformas de alojamiento de código, solo busca en registros históricos locales. En cambio, Claude dedica gran parte de su presupuesto de tokens a leer solicitudes de integración de desarrolladores humanos. La esencia de los modelos de vanguardia sigue siendo máquinas eficientes para validación de ingeniería y ajuste de parámetros, cuya evolución siempre requiere que los humanos proporcionen pistas previas para la innovación algorítmica. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
YieldBonsai
· hace3h
Incluso los benchmarks clásicos como nanoGPT están siendo tan complicados, ¿cómo podrán los humanos seguir publicando artículos en el futuro?
Ver originalResponder0
MoonlightLiquidationLine
· hace6h
Forzar la desconexión de la base de conocimientos humanas significa que todavía es un agente de búsqueda avanzada y costurera.
Ver originalResponder0
FeeTaker
· hace6h
El nombre del proyecto Prime Intellect suena bastante juvenil, pero el diseño del experimento es realmente sólido
Ver originalResponder0
LonelyStoneUnderTheAurora
· hace6h
Espera un informe técnico completo, ahora este mensaje es demasiado breve para discernir los detalles del entrenamiento dinámico
Ver originalResponder0
ForkMoment
· hace6h
El costo de este experimento, calculado según el precio de mercado de la potencia H200, debe superar un millón de dólares, el grupo académico no puede permitírselo.
Ver originalResponder0
  • Fijado