Zyphra lança o primeiro modelo de linguagem de difusão do ecossistema AMD, com uma aceleração máxima de 7,7 vezes

robot
Geração de resumo em curso

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a Zyphra lançou o modelo de difusão híbrido especialista (MoE) ZAYA1-8B-Diffusion-Preview, derivado de um grande modelo de linguagem autoregressivo. Embora a equipe oficial se autodenomine como o "primeiro" a implementar essa arquitetura, essa abordagem já foi pioneiramente executada por equipes como SDAR e LLaDA 2.0 no final do ano passado. A verdadeira singularidade do ZAYA1 reside em ser o primeiro modelo de linguagem de difusão treinado dentro do ecossistema de hardware AMD.

Fora do discurso de marketing, esse modelo ainda valida o valor de eficiência de engenharia da arquitetura de difusão. Modelos autoregressivos tradicionais são limitados pela geração sequencial palavra por palavra, e o acúmulo de cache KV faz a velocidade de geração atingir limites físicos. Assim como a tendência revelada recentemente pela equipe de He Kaiming com o modelo ELF de difusão pura, a denoising paralelo é a chave para romper esse gargalo.

O ZAYA1 utiliza a solução TiDAR para pular o pré-treinamento do zero, podendo realizar denoising simultâneo em 16 candidatos de tokens em uma única passagem, transformando completamente o gargalo de largura de banda de memória de vídeo em um gargalo de poder computacional.

Testes práticos mostram que, combinando o mecanismo de atenção CCA exclusivo do ZAYA1, o uso de um amostrador sem perdas padrão pode alcançar uma velocidade de processamento 4,6 vezes maior sem comprometer a qualidade da geração. Após a troca para um amostrador de logit híbrido, a velocidade de processamento sobe para 7,7 vezes, oferecendo uma redução de custos substancial para tarefas de inferência em grande escala que consomem muito tempo.

(Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-9008328f
· 6h atrás
TiDAR poupou custos de pré-treinamento, o suficiente para treinar quantas tarefas downstream?
Ver originalResponder0
CrystalBallForSentiment
· 6h atrás
O modelo de linguagem de difusão finalmente não precisa mais depender da aprovação da NV, coisa boa
Ver originalResponder0
GateUser-eccf92a1
· 6h atrás
TiDAR pular a pré-treinamento é uma jogada que economiza muito, o ecossistema AMD finalmente tem um modelo de difusão que consegue competir
Ver originalResponder0
GateUser-4aa73916
· 6h atrás
Uma única passagem para frente consegue lidar com 16 tokens, cenário sensível à latência fica extremamente satisfeito
Ver originalResponder0
Semi-MeltedIceCream
· 6h atrás
CCA atenção sem perdas de amostragem 4.6x, detalhes técnicos para um blog técnico
Ver originalResponder0
MosaicButterfly
· 6h atrás
16 tokens a remover de ruído ao mesmo tempo, a troca de memória por poder de processamento é uma abordagem muito amigável para cartões de consumo
Ver originalResponder0
LookingAtTheCandlestickChart
· 6h atrás
A treinar na AMD em vez de fazer portabilidade, o discurso ecológico começou a mudar
Ver originalResponder0
  • Fixado