A arquitetura TwoTower da NVIDIA melhora a eficiência de grandes modelos com modelos paralelos de 30B.

Segundo a monitorização da Beating, a NVIDIA disponibilizou em código aberto a arquitetura de difusão de texto discreto Nemotron-Labs-TwoTower, destinada a resolver o gargalo de velocidade de geração de grandes modelos que só conseguem produzir uma palavra de cada vez. Modelos de difusão de texto anteriores forçavam uma única rede a equilibrar a compreensão unidirecional do contexto com a correção paralela bidirecional de erros na busca por saída paralela, resultando numa queda significativa na capacidade cognitiva do modelo. A arquitetura TwoTower emprega um design dissociado: por um lado, congela completamente um grande modelo autorregressivo pré-treinado como uma 'torre de contexto só de leitura' para reter todas as capacidades de raciocínio e senso comum; por outro lado, treina separadamente uma 'torre de escrita de desruído' que lê informações contextuais através de atenção cruzada ao nível das camadas. A torre de escrita utiliza um mecanismo de 'desmascaramento de confiança', priorizando a escrita de palavras de alta confiança ao prever um bloco e preenchendo gradualmente as lacunas restantes para alcançar uma escrita paralela do fácil para o difícil. Este design adapta-se num modelo de arquitetura mista (Mamba-Transformer MoE) de nível 30B utilizando apenas 1/12 dos dados de pré-treino do modelo de base (2,1T tokens), retendo 98,7% da qualidade enquanto melhora a velocidade real de geração em 2,42 vezes, sem adicionar sobrecarga extra de cache de memória. No entanto, devido à necessidade de manter ambas as torres em memória, o uso de memória estática do modelo aumentou, e ainda existe uma ligeira degradação de precisão em código extremamente complexo e raciocínio matemático.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado