Deja que la IA modifique su propio código de entrenamiento, Recursivamente actualiza los registros de optimización de tres algoritmos

robot
Generación de resúmenes en curso
YO AI Mensajes, según la monitorización de Beating, la startup de IA Recursive ha publicado los primeros resultados experimentales de su sistema de investigación científica. El sistema puede proponer ideas automáticamente, escribir código, ejecutar experimentos y verificar resultados, superando los mejores resultados públicos en tres benchmarks: entrenamiento con presupuesto fijo, entrenamiento ultrarrápido de NanoGPT y optimización de kernels GPU. Los experimentos muestran que, en tareas con objetivos claros y retroalimentación rápida, el sistema ya puede encontrar espacios de optimización que los humanos pasan por alto. En el entrenamiento de NanoChat Autoresearch limitado a 5 minutos, el sistema redujo la pérdida de validación BPB a 0.9109, acortando aproximadamente un 23% el tiempo de entrenamiento para alcanzar la misma pérdida (aceleración de 1.3 veces). La mejora clave fue fortalecer la memoria de contexto corto, hashando combinaciones de tokens binarios y ternarios en una tabla de embeddings fija, y mezclando directamente información local en la ruta de atención mediante puertas aprendibles, con un coste muy bajo. En la carrera de velocidad NanoGPT, optimizada por la comunidad durante más de dos años, el tiempo para alcanzar la pérdida objetivo se redujo de 79.7 segundos a 77.5 segundos. Las técnicas de optimización incluyen avanzar el cálculo FP8 en la atención para aumentar el rendimiento, y reescribir el kernel fusionado de MLP, guardando solo la activación ReLU cuadrada y recalculando las variables intermedias durante la retropropagación para reducir las lecturas y escrituras de memoria GPU. En el benchmark de optimización de kernels GPU SOL-ExecBench, el sistema en la GPU Nvidia B200 elevó la puntuación media SOL (que alcanza el límite teórico) de 0.699 a 0.754, reduciendo en un 18% la brecha con el límite físico. Las soluciones generadas incluyen incorporar la escala GRN en los pesos de las capas lineales posteriores, empaquetar la puntuación y el índice de enrutamiento de expertos en pares clave-valor para reducir en warp, y en el kernel NVFP4 MoE usar instrucciones PTX de bajo nivel para empaquetar FP4, manteniendo FP32 en cálculos intermedios para reducir la acumulación de errores. Para evitar que IA explote vulnerabilidades para hacer trampas en las puntuaciones, el sistema introduce auditorías de corrección multinivel para filtrar aceleraciones inválidas. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado