Arquitetura TwoTower da NVIDIA Melhora a Eficiência de Modelos Grandes com Modelos Paralelos de 30B

Segundo monitoramento da Beating, a NVIDIA abriu o código da arquitetura de difusão de texto discreta Nemotron-Labs-TwoTower, visando resolver o gargalo de velocidade de geração de grandes modelos que só conseguem produzir uma palavra por vez. Modelos de difusão de texto anteriores forçavam uma única rede a equilibrar compreensão unidirecional de contexto com correção paralela bidirecional de erros em busca de saída paralela, resultando em uma queda significativa na capacidade cognitiva do modelo. A arquitetura TwoTower emprega um design desacoplado: por um lado, congela completamente um grande modelo autorregressivo pré-treinado como uma "torre de contexto somente leitura" para manter plenas capacidades de raciocínio e senso comum; por outro lado, treina separadamente uma "torre de escrita de desruído" que lê informações contextuais por meio de atenção cruzada em nível de camada. A torre de escrita usa um mecanismo de "desmascaramento de confiança", priorizando a escrita de palavras de alta confiança ao prever um bloco, e preenchendo gradualmente as lacunas restantes para alcançar escrita paralela do fácil ao difícil. Esse design se adapta em um modelo de arquitetura mista de nível 30B (Mamba-Transformer MoE) usando apenas 1/12 dos dados de pré-treinamento do modelo base (2,1T tokens), mantendo 98,7% da qualidade enquanto melhora a velocidade real de geração em 2,42 vezes, sem adicionar sobrecarga extra de cache de memória. No entanto, devido à necessidade de manter ambas as torres na memória, o uso de memória estática do modelo aumentou, e ainda há uma ligeira degradação de precisão em raciocínios de código e matemática extremamente complexos.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado