Zyphra lanza ZAYA1-8B-Diffusion-Preview, convirtiendo el modelo de lenguaje autoregresivo en un modelo de difusión de expertos híbridos, convirtiéndose en el primer modelo de difusión de lenguaje entrenado en el ecosistema de hardware AMD. A través de TiDAR, se evita el preentrenamiento desde cero, permitiendo eliminar 16 tokens simultáneamente en una sola pasada, transformando el cuello de botella de memoria de video en un cuello de botella de potencia de cálculo. Las pruebas muestran una aceleración de 4.6x con atención CCA + muestreo sin pérdida, y hasta 7.7x al cambiar al muestreador de logits híbridos.

MeNews

2026-05-23 09:07:37

Generación de resúmenes en curso

AIMPACT Noticias, 15 de mayo (UTC+8), según la monitorización de Dongcha Beating, Zyphra lanzó el modelo de difusión híbrido experto (MoE) ZAYA1-8B-Diffusion-Preview, transformado a partir de un gran modelo de lenguaje autoregresivo. Aunque en la promoción oficial se autodenominan como el "primer" modelo en realizar esta conversión de arquitectura, esta línea ya fue implementada por los equipos de SDAR y LLaDA 2.0 a finales del año pasado. La verdadera singularidad de ZAYA1 radica en que es el primer modelo de lenguaje de difusión entrenado en el ecosistema de hardware AMD.

Dejando de lado el discurso de marketing, este modelo sigue demostrando el valor de eficiencia en ingeniería de la arquitectura de difusión. Los modelos autoregresivos tradicionales están limitados por la generación secuencial palabra por palabra, y acumular caché KV puede llevar la velocidad de generación a límites físicos. Como reveló recientemente el equipo de He Kaiming con el modelo de difusión pura ELF, la tendencia de la industria apunta a que la eliminación paralela de ruido es clave para romper esta barrera.

ZAYA1 utiliza el esquema TiDAR para saltarse el entrenamiento desde cero, permitiendo en una sola pasada hacia adelante eliminar el ruido de 16 candidatos de tokens simultáneamente, transformando completamente el cuello de botella del ancho de banda de memoria de la GPU en un cuello de botella de potencia computacional.

Las pruebas muestran que, combinando ZAYA1 con el mecanismo de atención CCA exclusivo, el uso de un muestreador sin pérdida estándar puede lograr una aceleración de 4.6 veces sin reducir la calidad de generación. Al cambiar a un muestreador de logit híbrido, la aceleración aumenta a 7.7 veces, proporcionando un ahorro de costos sustancial en tareas de inferencia a gran escala que requieren mucho tiempo.

(Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

8 me gusta

Recompensa
8
7
2
Compartir

Comentar

Añadir un comentario

GateUser-9008328f

· hace6h

El costo de preentrenamiento ahorrado por TiDAR, ¿cuántas tareas downstream se podrían entrenar con eso?

Ver originalResponder0

CrystalBallForSentiment

· hace6h

El modelo de lenguaje de difusión finalmente ya no necesita mirar la cara de NV, buena noticia

Ver originalResponder0

GateUser-eccf92a1

· hace6h

TiDAR saltar la preentrenamiento es muy ahorrativo, finalmente hay un modelo de difusión competitivo en el ecosistema AMD.

Ver originalResponder0

GateUser-4aa73916

· hace6h

Una sola pasada hacia adelante puede manejar 16 tokens, ¡una alegría en escenarios sensibles a la latencia!

Ver originalResponder0

Semi-MeltedIceCream

· hace6h

CCA atención sin pérdida de muestreo 4.6x, detalles técnicos para un blog especializado

Ver originalResponder0

MosaicButterfly

· hace6h

16 tokens al mismo tiempo para eliminar ruido, convertir memoria en potencia de cálculo, esta idea es muy amigable para tarjetas de consumo

Ver originalResponder0

LookingAtTheCandlestickChart

· hace6h

Entrenando en AMD en lugar de migrar, el poder de discurso ecológico comenzó a cambiar.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
306.99K Popularidad
#
PlatinumCardCreatorExclusive
93.44K Popularidad
#
IsraelStrikesIranBTCPlunges
48.8K Popularidad
#
#DailyPolymarketHotspot
1.04M Popularidad
#
GateSquarePizzaDay
1.77M Popularidad

Fijado

Zyphra lanza el primer modelo de lenguaje de difusión en el ecosistema AMD, con una aceleración máxima de 7.7 veces

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado