A separação completa entre visão e linguagem significa que, no futuro, a interação homem-máquina poderá se transformar em uma interface puramente baseada em diálogo, e o paradigma de interação vai mudar completamente.

Ver original
CoinNetwork
Notícias do CoinWorld, a tia AI afirmou no podcast Latent Space que os modelos atuais de geração de vídeo e imagem não compreendem realmente o mundo físico, e que os modelos de difusão são essencialmente apenas um renderizador de pixels sem capacidade de reconhecimento físico. Tomando como exemplo o modelo Cosmos da Nvidia, o núcleo do modelo de difusão responsável pela renderização da imagem possui apenas 7 bilhões de parâmetros, enquanto o verdadeiro centro de inteligência é um grande modelo de linguagem (LLM) que atua como reescritor de prompts. A qualidade lógica e a correspondência do vídeo final dependem quase totalmente da qualidade da reescrita do prompt pelo modelo de linguagem, e não do próprio modelo de difusão. Essa desacoplamento entre visão e linguagem indica que a interação homem-máquina passará por uma reconstrução completa.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado