Notícias do CoinWorld, a versão de pré-visualização do ZAYA1-74B de código aberto da Zyphra utiliza hardware AMD completo para treino de ponta a ponta, com um total de 74 bilhões de parâmetros no modelo, ativando 4 bilhões de vezes por sessão. Este modelo é baseado na arquitetura de especialistas híbridos (MoE), e todo o processo de pré-treinamento e expansão de contexto é realizado na placa aceleradora AMD MI300X. Para otimizar a eficiência de textos longos, a camada de atenção global foi substituída por uma atenção de janela deslizante de tamanho 4K (SWA), e testes oficiais mostram que esse design reduz significativamente o uso de cache KV sem sacrificar o desempenho. Durante o treino, foram utilizados 150 trilhões de tokens de corpus de pré-treinamento, e no treino intermediário de 3 trilhões de tokens, a janela de contexto foi gradualmente expandida para 256K. A Zyphra optou por divulgar a pontuação PASS para demonstrar que a base possui a capacidade de gerar passos de raciocínio corretos, e a versão completa e robusta do ZAYA1-74B está prevista para o futuro.

CoinNetwork

2026-05-08 10:56:20

Notícias do site CoinWorld, a versão de pré-visualização do ZAYA1-74B de código aberto da Zyphra utiliza hardware AMD em todo o processo de treino, com um total de 74 bilhões de parâmetros no modelo, ativando 4 bilhões de vezes por sessão.
Este modelo é baseado na arquitetura de especialistas híbridos (MoE), e todo o processo de pré-treinamento e expansão de contexto é realizado na placa aceleradora AMD MI300X.
Para otimizar a eficiência de textos longos, a camada de atenção global foi substituída por uma atenção de janela deslizante de 4K de tamanho de janela (SWA), e testes oficiais mostram que esse design, sem sacrificar o desempenho, reduz significativamente o uso de cache KV.
Durante o treino, foram utilizados 150 trilhões de tokens de dados de pré-treinamento, e no treino intermediário de 300 trilhões de tokens, a janela de contexto foi gradualmente expandida para 256K.
A Zyphra optou por divulgar a pontuação PASS para demonstrar que a base possui a capacidade de gerar passos de raciocínio corretos, e a versão completa e totalmente funcional do ZAYA1-74B deve ser lançada nas próximas semanas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
786.06K Popularidade
#
BitcoinFallsBelow80K
95.03M Popularidade
#
IsraelStrikesIranBTCPlunges
44.37K Popularidade
#
IranUSConflictEscalates
95.9K Popularidade
#
OilPriceRollerCoaster
309.13K Popularidade

Fixar

Zyphra código aberto ZAYA1-74B versão de pré-visualização: treino de ponta a ponta com hardware AMD completo, 4B de ativação, 74B de parâmetros totais

Tópicos em destaque

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Fixar