Visão e linguagem completamente separadas, o que significa que no futuro a interação homem-máquina pode se tornar uma interface puramente baseada em diálogo, o paradigma de interação vai mudar drasticamente

Ver original
CoinNetwork
Notícias do CoinWorld, a tia AI afirmou no podcast Latent Space que os modelos atuais de geração de vídeo e imagem não compreendem realmente o mundo físico, e que os modelos de difusão são essencialmente apenas renderizadores de pixels sem capacidade de reconhecimento físico. Tomando como exemplo o modelo Cosmos da Nvidia, o núcleo de difusão responsável pela renderização da imagem possui apenas 7 bilhões de parâmetros, enquanto o verdadeiro centro de inteligência é um grande modelo de linguagem (LLM) que atua como reescritor de prompts. A qualidade lógica e a correspondência do vídeo final dependem quase totalmente da qualidade da reescrita do prompt pelo modelo de linguagem, e não do próprio modelo de difusão. Essa desacoplamento entre visão e linguagem indica que a interação homem-máquina passará por uma reconstrução completa.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado