NVIDIA NeMo RL admite entrenamiento posterior de aprendizaje por refuerzo de baja precisión FP8, acelerando la iteración de agentes.

robot
Generación de resúmenes en curso
ME News mensaje, 23 de abril (UTC+8), NVIDIA AI anunció recientemente que su biblioteca de código abierto NVIDIA NeMo RL ha agregado una nueva capacidad, que permite usar el formato de baja precisión FP8 para el entrenamiento posterior de aprendizaje por refuerzo (RL), con el fin de acelerar las cargas de trabajo computacionales relacionadas. Según la información publicada, en el modelo Qwen3-8B-Base, el uso del formato FP8 puede aumentar la velocidad de las cargas de trabajo de RL en 1.48 veces. Esta aceleración tiene como objetivo lograr ciclos de iteración más rápidos para el uso de herramientas por parte de agentes y tareas de múltiples pasos. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios