La séparation complète entre la vision et le langage signifie qu'à l'avenir, l'interaction homme-machine pourrait devenir une simple conversation guidée par l'interface, le paradigme d'interaction va changer radicalement.

Voir l'original
CoinNetwork
Le message de Coinjie.com indique que, lors du podcast Latent Space, l'IA Yiyi a souligné que les modèles actuels de génération de vidéos et d'images ne comprennent pas réellement le monde physique, et que les modèles de diffusion sont essentiellement de simples rendus pixel par pixel sans capacité de cognition physique. Prenant l'exemple du modèle Cosmos de Nvidia, le modèle de diffusion central responsable du rendu d'image ne comporte que 7 milliards de paramètres, tandis que le véritable centre d'intelligence est assuré par un grand modèle de langage (LLM) qui joue le rôle de réécrivain de prompts. La qualité logique et la correspondance de la vidéo finale dépendent presque entièrement de la qualité de la réécriture des prompts par le modèle de langage, et non du modèle de diffusion lui-même. Ce découplage entre la vision et le langage annonce une refonte complète de l'interaction homme-machine.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé