La separación total de la visión y el lenguaje significa que en el futuro la interacción humano-máquina podría convertirse en una interfaz puramente basada en diálogos, y el paradigma de interacción cambiará radicalmente.

Ver original
CoinNetwork
La noticia de CoinWorld, AI Yi en el podcast Latent Space señaló que los modelos actuales de generación de videos e imágenes no comprenden realmente el mundo físico, los modelos de difusión en esencia son solo un renderizador de píxeles que no posee capacidades de reconocimiento físico. Tomando como ejemplo el modelo Cosmos de Nvidia, el núcleo del modelo de difusión responsable del renderizado de la imagen tiene solo 7 mil millones de parámetros, mientras que el verdadero centro de inteligencia está en el modelo de lenguaje grande (LLM) que actúa como reescritor de instrucciones. La calidad lógica y la coherencia del video final dependen casi por completo de la calidad con la que el modelo de lenguaje reescribe las instrucciones, y no del modelo de difusión en sí. Este desacoplamiento entre visión y lenguaje predice que la interacción humano-máquina experimentará una reconstrucción completa.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado