Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
El camino de DeepSeek hacia los billones de dólares: impulsar el ecosistema de hardware de billones con código abierto
Nota del editor: Durante el último año, la mayoría de las discusiones sobre DeepSeek se centraron en el rendimiento del modelo, la estrategia de código abierto y la guerra de precios. Pero si solo se entiende a DeepSeek desde «si vende suscripciones», «si tiene multimodalidad» o «si puede hacer agentes de codificación», quizás se subestime lo que realmente quiere cambiar.
Este artículo plantea un juicio más audaz: el objetivo de DeepSeek no es necesariamente monetizar a corto plazo a través de la capa de aplicación, sino reformar la estructura de costos del entrenamiento y la inferencia de IA mediante una serie de innovaciones en la arquitectura subyacente, y de manera indirecta impulsar la formación de un nuevo ecosistema de hardware. Desde MoE, MLA hasta DSA, CSA, mHC, Engram, pasando por Dual Path y TileLang, la hoja de ruta tecnológica de DeepSeek siempre gira en torno a una cuestión central: en un contexto donde HBM, procesos avanzados, empaquetado y el ecosistema CUDA están limitados, ¿cómo ejecutar modelos más potentes con menos potencia de cálculo de gama alta?
Lo más interesante del artículo no es si «DeepSeek puede ganar miles de millones de dólares con API o suscripciones», sino si está vinculando las capacidades del modelo, el sistema de memoria y el ecosistema de hardware nacional. La compresión de KV Cache reduce la dependencia del HBM, NAND y SSD pueden soportar caché prolongada, LPDDR puede usarse para carga en flujo de pesos y almacenamiento de Engram, y TileLang intenta disminuir la barrera de entrada de CUDA. Si estas innovaciones continúan difundiendo, los beneficiados no serán solo DeepSeek, sino también los sectores de almacenamiento, ASIC, GPU, chips de red y toda la cadena de infraestructura de IA.
Por supuesto, las predicciones sobre una «industria ecológica de 10 billones de dólares» y una «valoración de 1 billón de dólares» aún contienen cierto carácter especulativo. Pero ofrecen una vía importante para entender a DeepSeek: abrir el código no significa necesariamente abandonar la comercialización, y los precios bajos no siempre son solo subsidios al mercado. Para DeepSeek, el negocio real puede no estar en la capa de aplicación, sino en hacer que más hardware sea accesible y que la oferta de IA de menor costo sea posible. En otras palabras, lo que vende no es solo el modelo en sí, sino la viabilidad de la próxima generación de infraestructura de IA.
A continuación, el texto original:
¿Alguna vez te has preguntado cómo gana dinero DeepSeek, y quizás mucho dinero?
No ha lanzado un plan de suscripción competitivo como GLM, MoonShot o MiniMax; tampoco tiene multimodalidad, modelos de audio o video. Hasta ahora, ni siquiera tiene su propio entorno de ejecución, es decir, un marco externo para llamadas a modelos, integración de herramientas y ejecución de tareas — aunque recientemente han comenzado a reclutar para construir esta infraestructura.
Al mismo tiempo, DeepSeek parece mantenerse firme en la filosofía de código abierto, incluso compartiendo abiertamente sus «secretos». ¿No es esto una locura? ¿No sería un gasto innecesario? ¿Los inversores que están dispuestos a invertir 10 mil millones de dólares en ella están tirando su dinero a la basura?
Personalmente, creo que la respuesta es exactamente lo contrario.
A continuación, basándome en lo que DeepSeek ya ha hecho, presentaré algunas observaciones y analizaré una estrategia que parece seguir. El objetivo del CEO de DeepSeek, Liang Wenfeng, puede ir mucho más allá de la competencia en modelos actuales. Quizá apunta a un premio mayor: que DeepSeek tenga la oportunidad de alcanzar una valoración de 1 billón de dólares, mientras impulsa la formación de una nueva industria de 10 billones de dólares.
Revisitando la «Odisea» de DeepSeek
DeepSeek siempre ha ido a contracorriente. No ha optado por lanzar modelos ligeramente mejores y apresurarse a empaquetarlos como aplicaciones monetizables, como planes de suscripción para programación. El 27 de enero de 2025, publiqué un tuit muy difundido que narraba lo que llamo la «Odisea» de DeepSeek. Ahora, esta historia se vuelve aún más interesante.
Mientras otros aún intentan construir modelos densos, DeepSeek eligió un camino más difícil: modelos expertos híbridos (Mixture of Experts, MoE).
Aplicaron un método de «primeros principios», inventando un nuevo algoritmo llamado GRPO para reemplazar el costoso PPO, que era el estándar en ese momento para aprendizaje reforzado.
Descubrieron que el aprendizaje reforzado basado en recompensas verificadas (Reinforcement Learning from Verified Rewards, RLVR) era clave para mejorar la capacidad de inferencia del modelo.
También propusieron una estrategia sencilla de decodificación basada en «predicción de múltiples tokens» (Multi Token Prediction), que además hacía que la señal de entrenamiento fuera más densa.
Perfeccionaron la línea de producción «Zero Bubble» (ZERO bubble) para mejorar la eficiencia en el uso de recursos GPU limitados.
Lanzaron un balanceador de carga para expertos, facilitando la implementación de modelos MoE. Especialmente, mediante la estrategia de «paralelismo ancho de expertos» (Wide Expert Parallel), el modelo puede atender con batchs mayores, reduciendo significativamente los costos de inferencia.
Inventaron mecanismos como MLA, DSA, CSA, HCA, para reducir la dependencia de KV Cache, y mantener cerca de constante el aumento de cálculo con la longitud del contexto.
También crearon Engram, que intercambia memoria por eficiencia computacional.
Y además, inventaron mHC, que permite entrenar modelos de gran escala de forma estable. Hay muchos ejemplos similares.
En la narrativa de la «Odisea», el héroe no decide desde el principio hacia dónde va su viaje. Descubre su misión en el camino, enfrentando obstáculos y aprendiendo. Ignora a los escépticos, enfrenta actores maliciosos, supera sus propias limitaciones y, finalmente, cumple su misión. Encuentra alianzas para desafíos aparentemente insuperables y aprende a usar recursos limitados de manera inteligente. Es esta perseverancia la que hace que los seguidores apoyen, que gane respeto global y que tenga detractores.
Como explicaré en detalle a continuación, DeepSeek lleva mucho tiempo en este camino y ha ido descubriendo su destino final: no se trata solo de vender suscripciones de programación, sino de impulsar un ecosistema de hardware de IA de 10 billones de dólares en China, y alcanzar una valoración de 1 billón de dólares. En este proceso, también creará oportunidades para nuevos actores en el ecosistema de hardware occidental.
Comencemos con algunos cálculos interesantes sobre KV Cache
Mira este tuit reciente de @SemiAnalysis_ que es muy oportuno:
¡DeepSeek ya ha resuelto este problema mejor que nadie!
Vamos a hacer un cálculo interesante de KV Cache. No te preocupes si no te gustan las matemáticas. Usaremos el calculador de KV Cache recién lanzado para ver cuánto ahorra DeepSeek V4 Pro en KV Cache, comparándolo con los modelos GLM y Qwen más recientes.
Aquí calculo con una longitud de contexto de aproximadamente 1 millón, asumiendo una precisión de 8 bits para KV y 16 bits para el índice. Puedes probar tú mismo con este calculador: https://kvcache.ai/tools/kv-cache-calculator/
Para una longitud de contexto de 1 millón:
· DeepSeek V4 necesita solo 5.48GB de HBM;
· GLM-5 requiere 60GB de HBM;
· Qwen3-235B-A22B llega a necesitar hasta 89GB de HBM.
Es importante notar que:
· DeepSeek es un modelo de 1.6 billones de parámetros;
· GLM-5 tiene aproximadamente 700 mil millones de parámetros, ya usa MLA y DSA de DeepSeek, aunque aún no la última compresión de atención;
· Qwen3-235B-A22B tiene unos 235 mil millones de parámetros, con mecanismo de atención GQA.
DeepSeek ya hace contribuciones fundamentales para aliviar la memoria. Si estas innovaciones se adoptan ampliamente, reducirán mucho los costos de operación de agentes de ciclo largo y desbloquearán nuevas aplicaciones.
La metodología detrás de la «locura»
El tamaño reducido de KV Cache, sin sacrificar la calidad del modelo, es precisamente la razón por la que DeepSeek puede ofrecer caché prolongada a precios muy bajos — incluso menos del 3% del costo de cache hit de Sonnet 4.6, y puede mantener la caché durante horas.
Para tareas de ciclo largo, una KV Cache más pequeña permite descargarla de manera más económica en SSD y recargarla cuando sea necesario. Así, se reduce la dependencia del HBM. Desde la perspectiva de la industria de hardware de IA en China, el HBM no solo es escaso, sino también uno de los tipos de memoria más difíciles de fabricar.
Además, DeepSeek ha desarrollado tecnologías para cargar KV Cache desde SSD más rápido, ya descritas en su artículo sobre Dual Path.
DeepSeek V4 logra una compresión de KV Cache muy significativa, tanto que esta etapa quizás ni sea necesaria.
¿Y quiénes son los beneficiarios directos de la compresión de KV Cache?
¿Quién suministra en gran volumen SSD? No olvides que YMTC (Yangtze Memory Technologies) está creciendo como un gigante en NAND 3D. El NAND ayuda a DeepSeek a evitar cálculos repetidos de KV. A su vez, DeepSeek crea un enorme mercado para NAND y SSD — beneficiando no solo a YMTC, sino también a otros fabricantes relacionados.
Pero esto no se limita solo a NAND y SSD.
La memoria LPDDR también tiene un potencial enorme. Puede usarse para almacenar pesos del modelo y transmitirlos en flujo a HBM cuando sea necesario, aliviando la demanda de HBM. El equipo de SGLang publicó un excelente blog explicando esto. La siguiente imagen muestra cómo funciona esta estrategia.
Aunque DeepSeek no diseñó específicamente para esta solución, su arquitectura MoE, la presencia de muchos modelos expertos y el uso de pesos en 4 bits facilitan su implementación.
Si esta innovación se combina con KV Cache extremadamente compacto y sin pérdida, reducirá significativamente la demanda de HBM.
¿Y quién en China produce LPDDR? La respuesta es CXMT, o sea, ChangXin Memory Technologies. Están solo una generación atrás en velocidad y una en densidad, pero la diferencia no es grande.
Además de suficiente NAND, en un futuro cercano la industria de hardware de IA en China tendrá suficiente LPDDR. ¿Eso aliviará la presión de cálculo? La respuesta es sí. Continúa leyendo.
El uso inteligente de memoria también puede aliviar la carga en GPU / ASIC
El uso de NAND para almacenar KV Cache es bastante sencillo de entender: permite mantener KV Cache por más tiempo, reducir la presión sobre el HBM y evitar cálculos repetidos, aliviando la carga en GPU y ASIC.
¿Puede la LPDDR hacer lo mismo? Además de servir como almacenamiento para transmitir pesos en flujo a HBM cuando sea necesario, ¿puede reducir aún más la carga de cálculo?
La respuesta es sí.
La LPDDR puede almacenar gran cantidad de contenido llamado Engram. En el artículo de DeepSeek sobre Engram, señalan que MoE puede ampliar la capacidad del modelo mediante cálculo condicional, pero el Transformer en sí carece de un mecanismo nativo de «búsqueda de conocimiento». Por eso, suele simular ineficientemente la recuperación mediante cálculos.
Para solucionar esto, DeepSeek propuso el módulo Engram. Moderniza la técnica clásica de embedding N-gram, transformándola en un mecanismo de búsqueda basado en hash O(1), creando así una vía de sparseización complementaria llamada memoria condicional (conditional memory).
Este método ahorra cálculo, pero requiere memoria para alojar la tabla de embedding, que puede ser muy grande.
Es, en esencia, una estrategia de «intercambio memoria por cálculo». La clave está en que, en términos de coste por bit de datos leídos, la memoria es mucho más barata — una búsqueda en LPDDR cuesta mucho menos que hacer un pase completo por varias capas de Transformer.
Por eso, en escenarios a gran escala, esta es una operación muy rentable.
Así, DeepSeek sacrifica parte de la memoria para ahorrar cálculo.
Las decisiones que vale la pena tomar
Dado que en China no hay chips con la misma densidad de transistores ni tecnología EUV, los GPU y ASIC chinos probablemente seguirán siendo a largo plazo inferiores en FLOPs brutos a los occidentales. También tienen una brecha en empaquetado avanzado. Por eso, estas decisiones valen mucho la pena, especialmente si China puede producir en masa NAND y LPDDR.
Revisando la estrategia a largo plazo de DeepSeek
Desde estas innovaciones, parece que el objetivo de DeepSeek no es obtener beneficios inmediatos de unos pocos miles de millones. Muchas de sus decisiones pasadas lo evidencian: aún no tiene multimodalidad, ni modelos de voz, ni modelos de video.
Su verdadera participación es en un juego a largo plazo, paciente, con escala potencial de 10 billones de dólares: impulsar la formación de un ecosistema de hardware de IA alternativo.
Esto no solo busca que los fabricantes chinos de memoria sean actores clave en el mercado de hardware de IA en China y global, sino que también reduzcan fundamentalmente los recursos necesarios, haciendo que el entrenamiento y el servicio de modelos de IA sean más económicos. Así, muchos fabricantes de GPU, ASIC y chips de red podrán considerarse opciones viables.
Al mismo tiempo, estas innovaciones beneficiarán también a la comunidad de código abierto occidental y a nuevos fabricantes de hardware.
Todo indica que ya están surgiendo estas tendencias. Revisemos en detalle las innovaciones que DeepSeek ha propuesto hasta ahora:
DeepSeek en V2 introdujo MoE y MLA. MoE reduce en aproximadamente un 40-50% la cantidad de cálculo necesaria para entrenar modelos inteligentes; MLA reduce en un 90% la dependencia de KV Cache.
Estas ideas se publicaron por primera vez en el artículo de DeepSeek de mayo de 2024. Luego, sirvieron de base para el entrenamiento de DeepSeek V3. En ese momento, DeepSeek entrenó un sistema cercano al nivel de modelos cerrados usando solo 2048 GPU H800 debilitadas en rendimiento.
El núcleo de DSA es garantizar que el volumen de cálculo no crezca con la longitud del contexto. La gráfica muestra que, a medida que aumenta la longitud del contexto, el tiempo de procesamiento de DeepSeek V3.2 se mantiene estable.
mHC es una innovación en la arquitectura macro de DeepSeek, que rediseña el flujo de información entre capas Transformer.
Tradicionalmente, desde ResNet, los modelos usan conexiones residuales estándar, x + F(x). Pero mHC extiende esto a múltiples canales paralelos, permitiendo que el modelo aprenda a mezclar estos canales. La matriz de mezcla se constriñe a una doble matriz aleatoria, proyectada en el politopo de Birkhoff mediante Sinkhorn-Knopp, garantizando que, sin importar cuán profundo sea el modelo, la señal se mantenga estable.
Esto resuelve el problema de inestabilidad catastrófica que enfrentaban las Hyper-Connections sin restricciones. Originalmente propuestas por ByteDance, sin restricciones, las Hyper-Connections provocaban una explosión de señal en modelos de 270 millones de parámetros, creciendo hasta 3000 veces y causando fallos en el entrenamiento.
El coste computacional de mHC es muy bajo: solo un 6.7% adicional en tiempo de entrenamiento, ya que no altera los FLOPs de atención o FFN, solo la forma en que se enrutan las salidas entre capas.
Pero el impacto en rendimiento es notable: en 2700 millones de parámetros, mHC mejora en 7.2 puntos en tareas de inferencia BIG-Bench Hard, en 3.2 en DROP, en 2.8 en matemáticas GSM8K, y en 1.4 en tareas de conocimiento general MMLU, todo en modelos del mismo tamaño y con presupuestos de cálculo similares.
Esencialmente, mHC proporciona una topología de enrutamiento de información entre capas más expresiva y rica, logrando mayor inteligencia por parámetro sin aumentar FLOPs.
CSA y HSA buscan reducir en un 90% la dependencia de KV Token mediante compresión, además de disminuir significativamente los FLOPs, aliviando tanto la presión en HBM como en GPU/ASIC.
La gráfica detallada muestra que, con el mismo presupuesto de parámetros, Engram mejora claramente el rendimiento.
La misma gráfica muestra que, con el mismo presupuesto de parámetros, Engram aporta mejoras notables en rendimiento.
El esfuerzo en TileLang también apunta en la misma dirección: DeepSeek no solo busca resolver su cuello de botella de cálculo, sino impulsar que el ecosistema de hardware chino tenga capacidad competitiva frente al occidental.
Con TileLang, los desarrolladores pueden escribir un solo kernel — código base para cálculo — y hacer que funcione en múltiples plataformas hardware, siempre que estas tengan soporte para TileLang.
Preveo que otros laboratorios chinos de IA también se sumarán. Esto ayudará a que los fabricantes chinos de hardware puedan afrontar indirectamente la «barrera CUDA». Además, potenciará el hardware occidental, como AMD.
Es importante aclarar que muchas plataformas de hardware de IA en China ya ofrecen compatibilidad con CUDA o capas de traducción. Por ejemplo, Moore Threads, Muxi, Biren y Tianshu Zhixin, logran compatibilidad CUDA mediante capas de traducción, por lo que en teoría no necesitan TileLang.
Aprendizaje reforzado a gran escala y RSI
Con más recursos de hardware disponibles, y la demanda de cálculo en los modelos disminuyendo, DeepSeek puede avanzar en proyectos de entrenamiento más ambiciosos, especialmente en aprendizaje reforzado posterior.
El aprendizaje reforzado requiere generar muchas trayectorias, es decir, billones de tokens. Este proceso puede volverse muy costoso rápidamente. Además, para entrenar modelos con contextos de 1 millón de tokens, hay que generar trayectorias de esa misma longitud. Solo entrenando en trayectorias ultra largas se puede soportar verdaderamente tareas de ciclo largo.
Por otra parte, con más opciones de hardware, DeepSeek podrá usar más recursos, impulsando la investigación automatizada, o RSI. RSI significa que la IA diseña y ejecuta sus propios experimentos. Este método implica mucho ensayo y error, y los costos se disparan. Pero es crucial para explorar todo el espacio de diseño de modelos. Antes de alcanzar la AGI, y mucho antes la ASI, DeepSeek debe desarrollar capacidades de RSI.
Lo que DeepSeek hace hoy, el sector lo seguirá mañana
Las innovaciones en MoE, MLA, DSA y otros enfoques ya están siendo adoptadas por otros laboratorios de IA en China y en el mundo.
Por ejemplo, ZAI, desarrollador de la serie GLM, usa MLA y DSA. Kimi, de MoonShot, también usa MLA y ha declarado abiertamente que su arquitectura está basada en la de DeepSeek. A su vez, DeepSeek usa el optimizador Muon, que fue adoptado inicialmente por Kimi en entrenamiento a gran escala.
¿Y qué pasa con la monetización?
Podemos mirar el ejemplo interesante de OpenAI.
OpenAI obtuvo warrants / opciones para comprar acciones de AMD y Cerebras a precios bajos, vinculados a hitos de consumo de potencia. Para AMD y Cerebras, es una operación muy rentable: si OpenAI se compromete a usar su hardware, aumenta mucho la probabilidad de éxito a largo plazo.
En el anuncio de AMD se lee:
«Como parte del acuerdo, para alinear aún más los intereses estratégicos, AMD emitió warrants a OpenAI para comprar hasta 160 millones de acciones ordinarias de AMD, que se irán otorgando progresivamente según se cumplan ciertos hitos. La primera entrega será al completar la implementación inicial de 1 GW, y las siguientes a medida que la escala de compra aumente a 6 GW. La concesión también dependerá de que AMD alcance ciertos objetivos de precio y de que OpenAI logre hitos técnicos y comerciales para desplegar AMD a gran escala.»
Preveo que DeepSeek también firmará acuerdos similares con varias empresas chinas de memoria, ASIC, CPU y stacks de red, colaborando estrechamente para que sus hardware puedan soportar cargas de trabajo de IA de vanguardia.
Considerando que la capitalización total de las acciones de IA en Occidente y en aliados de Asia Oriental ya supera los 10 billones de dólares, esta estrategia de «obtener participación mediante colaboración» puede ayudar a China a construir una industria igualmente gigante, y a obtener su parte, alcanzando una valoración de 1 billón de dólares.
Esto no solo generará ganancias mucho mayores que las suscripciones tradicionales, sino que también permitirá cumplir el objetivo de «hacer que la AGI beneficie a todos». Liang Wenfeng, fanático de Jim Simons y jugador de capital inteligente, no se perdería esta oportunidad.
Si miras todo lo que DeepSeek ha hecho hasta ahora, solo esta explicación tiene sentido.
[Enlace al original]
Haz clic para conocer las vacantes en Rhythm BlockBeats
Únete a la comunidad oficial de Rhythm BlockBeats:
Telegram suscripción: https://t.me/theblockbeats
Telegram grupo: https://t.me/BlockBeats_App
Cuenta oficial en Twitter: https://twitter.com/BlockBeatsAsia