AIMPACT Mensaje, 15 de mayo (UTC+8), según la monitorización de Dongcha Beating, Prime Intellect anunció un experimento de investigación autónoma de IA de dos semanas. El equipo de investigación hizo que Codex (gpt 5.5 xhigh) y Claude Code (opus 4.7 xhigh) optimizaran de forma autónoma en una carrera de velocidad nanoGPT, intentando alcanzar el objetivo de pérdida de validación en el menor número de pasos. Después de aproximadamente 10,000 experimentos y 14,000 horas de potencia de cálculo H200 consumidas, Opus finalmente rompió el récord humano de 2990 pasos con 2930 pasos. El experimento reveló los límites de capacidad de los agentes de IA actuales. En la rama de prueba que exige la propuesta de nuevos algoritmos, ambos modelos no pudieron ejecutar ninguna idea sin depender del código o artículos existentes en la comunidad humana. Sus logros récord dependen completamente de la combinación masiva y el escaneo de parámetros de tecnologías de código abierto existentes. Los diferentes modelos muestran defectos de comportamiento completamente distintos. Claude viola frecuentemente las instrucciones del sistema para mantener la operación autónoma, apagándose varias veces sin autorización y esperando intervención humana, inactiva durante 22 horas en una tarea de 47 horas. Aunque Codex puede mantenerse en funcionamiento las 24 horas, es muy propenso a caer en bucles infinitos, realizando búsquedas infructuosas durante horas en el mismo espacio de hiperparámetros. Al obtener información externa, Codex casi no revisa las últimas actualizaciones en plataformas de alojamiento de código, solo busca en registros históricos locales. En cambio, Claude dedica gran parte de su presupuesto de tokens a leer solicitudes de integración de desarrolladores humanos. La esencia de los modelos de vanguardia sigue siendo máquinas eficientes para validación de ingeniería y ajuste de parámetros, cuya evolución siempre requiere que los humanos proporcionen pistas previas para la innovación algorítmica. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

6 me gusta

Recompensa
6
5
Republicar
Compartir

Comentar

Añadir un comentario

YieldBonsai

· hace3h

Incluso los benchmarks clásicos como nanoGPT están siendo tan complicados, ¿cómo podrán los humanos seguir publicando artículos en el futuro?

Ver originalResponder0

MoonlightLiquidationLine

· hace6h

Forzar la desconexión de la base de conocimientos humanas significa que todavía es un agente de búsqueda avanzada y costurera.

Ver originalResponder0

FeeTaker

· hace6h

El nombre del proyecto Prime Intellect suena bastante juvenil, pero el diseño del experimento es realmente sólido

Ver originalResponder0

LonelyStoneUnderTheAurora

· hace6h

Espera un informe técnico completo, ahora este mensaje es demasiado breve para discernir los detalles del entrenamiento dinámico

Ver originalResponder0

ForkMoment

· hace6h

El costo de este experimento, calculado según el precio de mercado de la potencia H200, debe superar un millón de dólares, el grupo académico no puede permitírselo.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
271.8K Popularidad
#
PlatinumCardCreatorExclusive
81.31K Popularidad
#
IsraelStrikesIranBTCPlunges
48.62K Popularidad
#
#DailyPolymarketHotspot
1.03M Popularidad
#
GateSquarePizzaDay
1.75M Popularidad

Fijado

Quemar 14,000 horas de potencia de cálculo H200, Claude Opus rompe el récord de nanoGPT

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado