Zyphra versión preliminar de código abierto de ZAYA1-74B: entrenamiento de extremo a extremo en hardware AMD completo, 4B de activación, 74B de parámetros totales

La noticia de CoinWorld, la versión preliminar de ZAYA1-74B de código abierto de Zyphra utiliza hardware AMD en toda la cadena para el entrenamiento de extremo a extremo, con un total de 74 mil millones de parámetros en el modelo, y 4 mil millones de activaciones por vez.
El modelo se basa en una arquitectura de expertos híbridos (MoE), y todo el proceso de preentrenamiento y expansión de contexto se realiza en tarjetas aceleradoras AMD MI300X.
Para optimizar la eficiencia en textos largos, el modelo reemplaza la capa de atención global por atención de ventana deslizante con un tamaño de ventana de 4K (SWA), y las pruebas oficiales muestran que este diseño, sin sacrificar rendimiento, reduce significativamente el uso de caché KV.
Durante el entrenamiento se utilizó un corpus de preentrenamiento de 150 billones de tokens, y en un entrenamiento intermedio con 300 billones de tokens, se expandió gradualmente la ventana de contexto hasta 256K.
Zyphra decidió publicar los resultados PASS para demostrar que esta base tiene la capacidad de generar pasos de razonamiento correctos, y se espera que la versión completa y totalmente funcional de ZAYA1-74B se lance en las próximas semanas.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado