NVIDIA lançou em código aberto o modelo de IA de torre dupla, com velocidade de geração de texto 2,42 vezes mais rápida e retenção de qualidade de imagem de 98,7%.

ME AI Mensagem: A NVIDIA lançou o modelo de linguagem de difusão discreta Nemotron-Labs-TwoTower, resolvendo o ponto fraco da geração lenta de tokens em grandes modelos. Os pesos já foram disponibilizados em código aberto no Huggingface. Este modelo reutiliza os pesos pré-treinados da rede backbone existente, sem necessidade de treino do zero, reduzindo significativamente os custos. Adota uma arquitetura de torre dupla de 60B, com duas redes de 30B a cooperar em paralelo, cada torre ativando 3B parâmetros e equipada com 128 módulos especialistas roteáveis, melhorando a eficiência de geração. (Fonte: MLion)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado