📰 ¡El modelo de código abierto más potente DeepSeek v4 finalmente ha llegado! Un modelo de 16 billones de parámetros, licencia MIT, la memoria para textos largos se ha reducido a una décima parte de V3.2.


Según las monitorizaciones de Beating, la versión preliminar de la serie DeepSeek de código abierto V4, con licencia MIT, ya está disponible en Hugging Face y ModelScope. Esta serie incluye dos modelos MoE: V4-Pro con un total de 1.6T de parámetros, 49B (490 millones) de activaciones por token; V4-Flash con un total de 284B (2840 millones), 13B (130 millones) de activaciones. Ambos modelos soportan un contexto de 1M de tokens. La arquitectura tiene tres mejoras: mecanismo de atención híbrido (atención dispersa comprimida CSA + atención comprimida pesada HCA) que reduce significativamente el coste del contexto largo, en un contexto de 1M V4...
¡Hermanos, DeepSeek vuelve a revolucionar! El modelo V4 de 16 billones de parámetros, abierto bajo licencia MIT, con memoria para textos largos reducida a una décima parte de V3.2. Esto sí que es una verdadera revolución tecnológica, no esos proyectos basura que solo inflan aire.
$FET $AGIX ¿Podrán estas monedas de conceptos de IA aprovechar esta oportunidad? Todos los veteranos saben que a Sorogó le molesta mucho esa gente que solo hace promesas vacías, pero cuando hay avances técnicos reales, hay que subir a bordo con decisión. No esperes a que las instituciones manipulen el mercado, todavía estás allí en modo pasivo. 👇👇👇👇👇
FET-0,66%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado