Noticias de CoinWorld, la compañía Odyssey ha incorporado el aprendizaje por refuerzo (RLHF) en el entrenamiento de modelos visuales, lanzando el marco prowl, que por primera vez introduce RL en el ciclo de entrenamiento de modelos del mundo. Este marco envía agentes de RL a explorar en entornos de juego, buscando casos de fallo en el modelo en aspectos de geometría, movimiento, coherencia visual y respuesta a acciones, empaquetando estos errores en datos de entrenamiento para retroalimentar el modelo. prowl ha diseñado un búfer de trayectorias de adversarios con prioridad (PAT), que automáticamente envía casos de fallo más difíciles cuando el modelo corrige errores simples. El equipo validó prowl en el entorno Minerl de Minecraft, y los resultados cuantitativos muestran que, en comparación con la línea base de preentrenamiento, prowl redujo el error de seguimiento de acciones en un 12.6%, y en los segmentos más difíciles del 10% superior, la reducción se amplió al 20.9%.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado