NVIDIA NeMo RL admite entrenamiento de refuerzo de baja precisión con FP8, acelerando la iteración de agentes inteligentes

robot
Generación de resúmenes en curso
ME News Noticias, 23 de abril (UTC+8), NVIDIA AI anunció recientemente que su biblioteca de código abierto NVIDIA NeMo RL agregó una capacidad que soporta el entrenamiento posterior de aprendizaje por refuerzo (RL) usando formato de baja precisión FP8 para acelerar las cargas de trabajo relacionadas. Según su información publicada, en el modelo Qwen3-8B-Base, el uso del formato FP8 puede aumentar la velocidad de las cargas de trabajo de RL en 1.48 veces. Este aceleramiento tiene como objetivo lograr ciclos de iteración más rápidos para el uso de herramientas por parte de los agentes y tareas de múltiples pasos. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios