Zyphra lança ZAYA1-8B-Diffusion-Preview, transformando um grande modelo de linguagem autoregressivo em um modelo de difusão de especialistas híbridos, tornando-se o primeiro modelo de linguagem de difusão treinado no ecossistema de hardware AMD. Através do TiDAR, pula o pré-treinamento do zero, podendo denoizar simultaneamente 16 tokens em uma única passagem, transformando o gargalo de memória de vídeo em um gargalo de poder de processamento. Testes reais mostram uma aceleração de 4,6x com atenção CCA + amostragem sem perdas, aumentando para 7,7x após a troca para o amostrador de logit híbrido.

MeNews

2026-05-23 09:07:37

Geração de resumo em curso

AIMPACT mensagem, 15 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a Zyphra lançou o modelo de difusão híbrido especialista (MoE) ZAYA1-8B-Diffusion-Preview, derivado de um grande modelo de linguagem autoregressivo. Embora a equipe oficial se autodenomine como o "primeiro" a implementar essa arquitetura, essa abordagem já foi pioneiramente executada por equipes como SDAR e LLaDA 2.0 no final do ano passado. A verdadeira singularidade do ZAYA1 reside em ser o primeiro modelo de linguagem de difusão treinado dentro do ecossistema de hardware AMD.

Fora do discurso de marketing, esse modelo ainda valida o valor de eficiência de engenharia da arquitetura de difusão. Modelos autoregressivos tradicionais são limitados pela geração sequencial palavra por palavra, e o acúmulo de cache KV faz a velocidade de geração atingir limites físicos. Assim como a tendência revelada recentemente pela equipe de He Kaiming com o modelo ELF de difusão pura, a denoising paralelo é a chave para romper esse gargalo.

O ZAYA1 utiliza a solução TiDAR para pular o pré-treinamento do zero, podendo realizar denoising simultâneo em 16 candidatos de tokens em uma única passagem, transformando completamente o gargalo de largura de banda de memória de vídeo em um gargalo de poder computacional.

Testes práticos mostram que, combinando o mecanismo de atenção CCA exclusivo do ZAYA1, o uso de um amostrador sem perdas padrão pode alcançar uma velocidade de processamento 4,6 vezes maior sem comprometer a qualidade da geração. Após a troca para um amostrador de logit híbrido, a velocidade de processamento sobe para 7,7 vezes, oferecendo uma redução de custos substancial para tarefas de inferência em grande escala que consomem muito tempo.

(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

8 gostos

Recompensa
8
7
2
Partilhar

Comentar

Adicionar um comentário

GateUser-9008328f

· 6h atrás

TiDAR poupou custos de pré-treinamento, o suficiente para treinar quantas tarefas downstream?

Ver originalResponder0

CrystalBallForSentiment

· 6h atrás

O modelo de linguagem de difusão finalmente não precisa mais depender da aprovação da NV, coisa boa

Ver originalResponder0

GateUser-eccf92a1

· 6h atrás

TiDAR pular a pré-treinamento é uma jogada que economiza muito, o ecossistema AMD finalmente tem um modelo de difusão que consegue competir

Ver originalResponder0

GateUser-4aa73916

· 6h atrás

Uma única passagem para frente consegue lidar com 16 tokens, cenário sensível à latência fica extremamente satisfeito

Ver originalResponder0

Semi-MeltedIceCream

· 6h atrás

CCA atenção sem perdas de amostragem 4.6x, detalhes técnicos para um blog técnico

Ver originalResponder0

MosaicButterfly

· 6h atrás

16 tokens a remover de ruído ao mesmo tempo, a troca de memória por poder de processamento é uma abordagem muito amigável para cartões de consumo

Ver originalResponder0

LookingAtTheCandlestickChart

· 6h atrás

A treinar na AMD em vez de fazer portabilidade, o discurso ecológico começou a mudar

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
306.99K Popularidade
#
PlatinumCardCreatorExclusive
93.44K Popularidade
#
IsraelStrikesIranBTCPlunges
48.8K Popularidade
#
#DailyPolymarketHotspot
1.04M Popularidade
#
GateSquarePizzaDay
1.77M Popularidade

Fixado

Zyphra lança o primeiro modelo de linguagem de difusão do ecossistema AMD, com uma aceleração máxima de 7,7 vezes

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado