Zyphra lanza el primer modelo de lenguaje de difusión en el ecosistema AMD, con una aceleración máxima de 7.7 veces

robot
Generación de resúmenes en curso

AIMPACT Noticias, 15 de mayo (UTC+8), según la monitorización de Dongcha Beating, Zyphra lanzó el modelo de difusión híbrido experto (MoE) ZAYA1-8B-Diffusion-Preview, transformado a partir de un gran modelo de lenguaje autoregresivo. Aunque en la promoción oficial se autodenominan como el "primer" modelo en realizar esta conversión de arquitectura, esta línea ya fue implementada por los equipos de SDAR y LLaDA 2.0 a finales del año pasado. La verdadera singularidad de ZAYA1 radica en que es el primer modelo de lenguaje de difusión entrenado en el ecosistema de hardware AMD.

Dejando de lado el discurso de marketing, este modelo sigue demostrando el valor de eficiencia en ingeniería de la arquitectura de difusión. Los modelos autoregresivos tradicionales están limitados por la generación secuencial palabra por palabra, y acumular caché KV puede llevar la velocidad de generación a límites físicos. Como reveló recientemente el equipo de He Kaiming con el modelo de difusión pura ELF, la tendencia de la industria apunta a que la eliminación paralela de ruido es clave para romper esta barrera.

ZAYA1 utiliza el esquema TiDAR para saltarse el entrenamiento desde cero, permitiendo en una sola pasada hacia adelante eliminar el ruido de 16 candidatos de tokens simultáneamente, transformando completamente el cuello de botella del ancho de banda de memoria de la GPU en un cuello de botella de potencia computacional.

Las pruebas muestran que, combinando ZAYA1 con el mecanismo de atención CCA exclusivo, el uso de un muestreador sin pérdida estándar puede lograr una aceleración de 4.6 veces sin reducir la calidad de generación. Al cambiar a un muestreador de logit híbrido, la aceleración aumenta a 7.7 veces, proporcionando un ahorro de costos sustancial en tareas de inferencia a gran escala que requieren mucho tiempo.

(Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-9008328f
· hace6h
El costo de preentrenamiento ahorrado por TiDAR, ¿cuántas tareas downstream se podrían entrenar con eso?
Ver originalResponder0
CrystalBallForSentiment
· hace6h
El modelo de lenguaje de difusión finalmente ya no necesita mirar la cara de NV, buena noticia
Ver originalResponder0
GateUser-eccf92a1
· hace6h
TiDAR saltar la preentrenamiento es muy ahorrativo, finalmente hay un modelo de difusión competitivo en el ecosistema AMD.
Ver originalResponder0
GateUser-4aa73916
· hace6h
Una sola pasada hacia adelante puede manejar 16 tokens, ¡una alegría en escenarios sensibles a la latencia!
Ver originalResponder0
Semi-MeltedIceCream
· hace6h
CCA atención sin pérdida de muestreo 4.6x, detalles técnicos para un blog especializado
Ver originalResponder0
MosaicButterfly
· hace6h
16 tokens al mismo tiempo para eliminar ruido, convertir memoria en potencia de cálculo, esta idea es muy amigable para tarjetas de consumo
Ver originalResponder0
LookingAtTheCandlestickChart
· hace6h
Entrenando en AMD en lugar de migrar, el poder de discurso ecológico comenzó a cambiar.
Ver originalResponder0
  • Fijado