📰 【DeepSeek V4 lanzamiento: 1.6T de parámetros, buque insignia que soporta 1M de contexto, potencia de inferencia solo el 27% de V3.2】


Según la monitorización de Beating, la vista previa de la serie V4 de DeepSeek de código abierto, bajo licencia MIT, ya está disponible en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con un total de 1.6T de parámetros, activando 49B por token (490 millones); V4-Flash con un total de 284B (2840 millones), activando 13B (130 millones). Ambos soportan un contexto de 1M de tokens. La arquitectura tiene tres mejoras: mecanismo de atención híbrido (atención dispersa comprimida CSA + atención comprimida pesada HCA) que reduce significativamente el coste del contexto largo, en un contexto de 1M V4...
¡Joder! ¡Este DeepSeek V4 va a hacer que los costos de computación de los perros de la bolsa se desplomen! Solo 49B activados con 1.6T de parámetros, potencia de inferencia solo el 27% de V3.2, ¿no es como abrir un truco de potencia para nosotros, los perros de tierra? ¡El camino AI será lavado hasta que ni la madre nos reconozca! Familia, ¡mantengan los ojos en los pesos de Hugging Face! Cuando esta ola de beneficios tecnológicos se implemente, los proyectos que dependen de acumular potencia para hacer dinero serán aplastados en el suelo. ¡Maldita sea, si no aprovechamos esta oportunidad, seremos los próximos en que los perros de la bolsa nos usen como chivos expiatorios! 👇👇👇👇👇
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado