Superar la barrera de modelos de gran tamaño con más de un billón de parámetros en aprendizaje por refuerzo: open source prime-rl permite entrenar en 28 servidores con 131k contextos

robot
Generación de resúmenes en curso
ME AI Mensaje, según la monitorización de Beating, Prime Intellect ha lanzado la versión 0.6.0 del marco de entrenamiento de aprendizaje reforzado distribuido prime-rl, superando los obstáculos en el entrenamiento de modelos de expertos híbridos con billones de parámetros MoE en tareas de agentes con contextos extremadamente largos. Los grandes modelos pueden leer textos de más de 256k de longitud, pero en el entrenamiento de aprendizaje reforzado, para que el modelo pueda realizar razonamiento mediante prueba y error autónomos, la tarjeta gráfica debe mantener en todo momento los valores de activación intermedios de una longitud de 131k, lo que provoca un aumento de cientos o miles de veces en el consumo de memoria de la GPU. Antes, esto requería un enorme clúster de miles de tarjetas gráficas, pero prime-rl 0.6.0 ha logrado realizar el entrenamiento de refuerzo con contexto de 131k en GLM-5 usando solo 28 servidores H200, controlando el tiempo por paso en menos de 5 minutos. Para resolver el problema de que tareas de prueba y error con generación de código compleja, que a menudo son tareas de cola larga, bloquean el ritmo global y dejan los recursos de la GPU inactivos durante mucho tiempo, el marco rompe con el mecanismo tradicional de espera sincronizada, adoptando una arquitectura de aprendizaje reforzado asincrónica completamente desacoplada. El entrenado en segundo plano, tras calcular los nuevos pesos, no necesita esperar a que finalicen las tareas de prueba y error en curso, sino que envía actualizaciones en tiempo real durante la generación de texto del modelo. Las tareas ya distribuidas continúan usando la estrategia antigua para garantizar la velocidad, mientras que las nuevas tareas inyectan la caché KV con sal para reconstruirla forzadamente. Para abordar el problema de que la desincronización entre entrenamiento y inferencia en actualizaciones asincrónicas puede causar confusión en la lógica del modelo, el marco introduce la tecnología de reenvío de rutas R3, que procesa directamente en el nivel inferior la distribución de expertos, evitando la latencia del sistema causada por la conversión de datos, reduciendo la discrepancia entre ambos extremos a una décima, estabilizando enormemente el entrenamiento asincrónico. En cuanto a la optimización de recursos en el nivel inferior, el marco resuelve completamente el problema de que la memoria de la GPU se desborda por textos largos mediante un diseño meticuloso. La inferencia adopta una arquitectura de separación de lectura y escritura, evitando que modelos grandes se bloqueen durante la lectura de grandes cantidades de contexto previo, lo que podría detener la generación de texto posterior; además, comparte conocimientos de expertos entre varias GPUs y utiliza la tecnología Mooncake para combinar la memoria y el disco inactivos de múltiples servidores en un caché compartido. Para el cálculo paralelo de textos extremadamente largos, en respuesta al mecanismo de atención dispersa DSA único de GLM-5, el marco ha desarrollado una solución paralela exclusiva que, asegurando que el modelo tenga una visión global, reduce el costo de comunicación de datos entre capas de GPU a solo una vez. En el lado del entrenamiento, combina DeepGEMM para implementar el entrenamiento en FP8 con escalado de bloques propuesto por DeepSeek V3, permitiendo que entrenamiento e inferencia usen la misma precisión y núcleo de cálculo, eliminando fundamentalmente los fallos de entrenamiento causados por desviaciones de precisión. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado