DeepSeek modelo V4 de código abierto, con una escala de parámetros de 1.6 billones

robot
Generación de resúmenes en curso

Odaily Planet Daily News DeepSeek lanza la vista previa de la serie V4 de modelos de código abierto, con licencia MIT, los pesos ya están disponibles en Hugging Face y ModelScope.

Esta serie incluye dos modelos MoE, donde V4-Pro tiene aproximadamente 1.6 billones de parámetros en total, con 49 mil millones de parámetros activados por token, y V4-Flash tiene un total de 284 mil millones de parámetros, con 13 mil millones de parámetros activados, ambos soportan un contexto de aproximadamente 1 millón de tokens. La compañía afirma que, en comparación con la versión V3.2, el uso de memoria de la GPU y el costo computacional en inferencia de textos largos se han reducido significativamente.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado