NVIDIA lançou um modelo de IA de torre dupla como código aberto, com velocidade de geração de texto 2,42 vezes mais rápida e retenção de qualidade de imagem de 98,7%.

ME AI Mensagem: A NVIDIA lançou o modelo de linguagem de difusão discreta Nemotron-Labs-TwoTower, resolvendo o gargalo de velocidade de geração token por token dos grandes modelos. Os pesos já foram lançados em código aberto no Huggingface. O modelo reutiliza os pesos pré-treinados da rede de backbone existente, sem necessidade de treinar do zero, reduzindo significativamente os custos. Adota uma arquitetura de torre dupla de 60B, com duas redes de 30B operando em paralelo e em colaboração. Cada torre ativa 3B parâmetros e carrega 128 módulos especialistas roteáveis, aumentando a eficiência de geração. (Fonte: MLion)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado