📰 【El modelo de código abierto más potente DeepSeek V4 finalmente llega! Modelo de 1.6 billones de parámetros, licencia MIT, memoria de texto largo comprimida a una décima de la V3.2】


Según la monitorización de Beating, la vista previa de la serie de código abierto DeepSeek V4, con licencia MIT, ya está disponible en Hugging Face y ModelScope. Esta serie incluye dos modelos MoE: V4-Pro con un total de 1.6T de parámetros, activación de 49B por token (490 millones); V4-Flash con un total de 284B (2840 millones), activación de 13B (130 millones). Ambos soportan un contexto de 1M de tokens. La arquitectura tiene tres mejoras: mecanismo de atención híbrido (atención dispersa comprimida CSA + atención comprimida pesada HCA) que reduce significativamente el coste del contexto largo, en un contexto de 1M...

¡Hermanos, DeepSeek ha vuelto a hacer grandes cosas! El modelo de código abierto V4 con 1.6 billones de parámetros, licencia MIT, memoria de texto largo comprimida a una décima de la V3.2. Este hermano realmente se atreve a hacer, lanzar modelos grandes como si fueran verduras, los inversores minoristas que juegan con IA, ¡suban rápido a bordo! No como cuando perdieron la oportunidad del rey de las criptomonedas y perdieron esta ola de beneficios tecnológicos.👇👇👇👇👇
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado