Zyphra código aberto ZAYA1-74B versão de pré-visualização: treino de ponta a ponta com hardware AMD completo, 4B de ativação, 74B de parâmetros totais

Notícias do site CoinWorld, a versão de pré-visualização do ZAYA1-74B de código aberto da Zyphra utiliza hardware AMD em todo o processo de treino, com um total de 74 bilhões de parâmetros no modelo, ativando 4 bilhões de vezes por sessão.
Este modelo é baseado na arquitetura de especialistas híbridos (MoE), e todo o processo de pré-treinamento e expansão de contexto é realizado na placa aceleradora AMD MI300X.
Para otimizar a eficiência de textos longos, a camada de atenção global foi substituída por uma atenção de janela deslizante de 4K de tamanho de janela (SWA), e testes oficiais mostram que esse design, sem sacrificar o desempenho, reduz significativamente o uso de cache KV.
Durante o treino, foram utilizados 150 trilhões de tokens de dados de pré-treinamento, e no treino intermediário de 300 trilhões de tokens, a janela de contexto foi gradualmente expandida para 256K.
A Zyphra optou por divulgar a pontuação PASS para demonstrar que a base possui a capacidade de gerar passos de raciocínio corretos, e a versão completa e totalmente funcional do ZAYA1-74B deve ser lançada nas próximas semanas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar