Microsoft World-R1: Enseñar a los modelos de video con aprendizaje por refuerzo a "entender" en 3D, sin cambiar la arquitectura, PSNR aumenta 10dB

robot
Generación de resúmenes en curso

AIMPACT Mensaje, 28 de abril (UTC+8), según la monitorización de Dongcha Beating, el equipo de Microsoft Research y la Universidad de Zhejiang propuso World-R1, que utiliza aprendizaje por refuerzo para que el modelo de generación de videos a partir de texto aprenda la coherencia geométrica 3D, sin modificar la arquitectura del modelo ni depender de conjuntos de datos 3D. Idea central: después de generar el video, reconstruir la escena en 3D con el modelo base preentrenado Depth Anything 3 para crear una Gaussiana 3D (3DGS), luego renderizar desde una nueva perspectiva y compararlo con el video original, combinando el error de reconstrucción, la desviación de la trayectoria y la confianza semántica desde la nueva vista (valorada por Qwen3-VL) en una señal de recompensa, que se retroalimenta al modelo de video mediante Flow-GRPO (un algoritmo de aprendizaje por refuerzo adaptado para modelos de coincidencia de flujo). El modelo base es Wan 2.1 de código abierto (1.3B y 14B), entrenado en World-R1-Small y World-R1-Large respectivamente. Los datos de entrenamiento consistieron en aproximadamente 3000 prompts de texto puro generados por Gemini, sin usar ningún activo 3D. Durante el entrenamiento, cada 100 pasos se inserta una ronda de “ajuste fino dinámico”, temporalmente desactivando la recompensa 3D y solo conservando la recompensa de calidad de imagen, para evitar que el modelo suprima movimientos no rígidos como el movimiento de personajes en busca de rigidez geométrica. En cuanto a la métrica de coherencia 3D, World-R1-Large mejora en PSNR (relación señal-ruido pico) en 7.91dB respecto a Wan 2.1 14B, y la versión Small mejora en 10.23dB. VBench mantiene o mejora la calidad general del video. En una prueba ciega con 25 personas, la tasa de victoria en coherencia geométrica fue del 92%, y la preferencia general del 86%. El código ya está abierto en GitHub bajo la licencia CC BY-NC-SA 4.0. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado