DeepSeek V4 detrás del desplome: Silicon Valley "construye muros", China "construye caminos"

nulo

Escrito por | Alter

El 24 de abril por la mañana, el DeepSeek V4 que llegó tarde finalmente mostró su verdadera forma.

Ese día, DeepSeek-V4-Pro alcanzó la cima en la lista de modelos de código abierto de Hugging Face, y dos “innovaciones nucleares” fueron ampliamente discutidas:

Uno es el contexto ultra largo de millones de tokens, pero la caché KV solo tiene el 10% de la V3.2, y fue elogiado por ingenieros de Amazon como la solución a la escasez de HBM;

El segundo es la adaptación a chips nacionales, en colaboración estrecha con Huawei durante el desarrollo, y la primera adaptación a chips nacionales como Ascend y Cambricon.

Por coincidencia, el segundo en la lista de modelos de código abierto de Hugging Face, fue precisamente Kimi K2.6, lanzado y abierto al código la noche del 20 de abril.

Si estuviera al otro lado del Pacífico, el “choque” entre modelos de billones de parámetros probablemente implicaría disputas por valoración y expansión comercial, pero en el país se representó una escena completamente diferente: sin escándalos públicos, sin guerras de relaciones públicas bajo corriente subterránea, e incluso con “cambios en la defensa” en la base tecnológica.

Detrás de lo “inusual”, se ocultan diferencias en las rutas tecnológicas de IA entre China y EE. UU.: Silicon Valley está en una frenética “construcción de muros”, intentando proteger sus intereses mediante código cerrado; los fabricantes de grandes modelos nacionales optan por “derribar los muros”, avanzando hacia la evolución colaborativa en un terreno de código abierto.

01 Silicon Valley atrapado en “el juego del poder”

A diferencia de la ruta de código abierto floreciente en China, los líderes de IA en Silicon Valley, representados por OpenAI, Anthropic y Google Gemini, son todos defensores del código cerrado.

La innovación tecnológica de vanguardia está confinada en sus propios centros de datos, y ante la presión de costos computacionales y las expectativas del mercado de capitales, el “espíritu de Silicon Valley”, conocido por su apertura y colaboración, está desapareciendo gradualmente, y los actores inevitablemente caen en un “juego de suma cero” de “poder”.

En los últimos dos años, las “guerras encubiertas” en tecnología se han convertido en enfrentamientos públicos, siendo la estrategia más típica “robar protagonismo”: en momentos clave de lanzamiento de nuevos productos de la competencia, lanzar rápidamente actualizaciones importantes para frenar su volumen de atención, ya se ha convertido en una operación habitual en Silicon Valley.

Ya en mayo de 2024, OpenAI y Google lanzaron simultáneamente nuevos productos de IA, uno afirmando que GPT-4o lidera globalmente, y el otro que la familia Gemini cubre todo el ecosistema y rutas. Finalmente, los CEOs de ambas empresas no pudieron quedarse quietos y se criticaron públicamente en redes sociales.

No solo en la “lucha” con Google, sino también en la competencia entre OpenAI y Anthropic, la rivalidad se intensificó: el 16 de abril, Anthropic lanzó su nuevo modelo Claude Opus 4.7, y poco más de dos horas después, OpenAI anunció una gran actualización de Codex, con el lema “Codex para (casi) todo)”. Todos los observadores vieron claramente que la coincidencia en los tiempos no fue casualidad, sino una “emboscada” cuidadosamente planificada por OpenAI contra Anthropic.

Además de las “batallas verbales” en los medios, las “revelaciones” mutuas en la lucha también se han convertido en la norma en Silicon Valley.

El 7 de abril, Anthropic anunció con gran pompa que sus ingresos anuales alcanzaron los 30 mil millones de dólares, superando con éxito los 25 mil millones de OpenAI.

Una semana después, el director de ingresos de OpenAI, en una carta interna a todos los empleados, señaló sin rodeos que las afirmaciones de Anthropic sobre sus ingresos anuales de 30 mil millones de dólares estaban muy infladas, ya que usaron el “método de suma total”, incluyendo en sus ingresos totales las comisiones de Amazon, Google y otros proveedores de servicios en la nube, lo que llevó a una sobreestimación de aproximadamente 8 mil millones de dólares.

Este tipo de sabotaje interno en la comunicación no es común en la industria tecnológica, y su objetivo es simplemente mostrar a los inversores que la narrativa de crecimiento de Anthropic es inflada.

Y una vez que surgen hostilidades, estas pueden afectar cada decisión en todos los niveles.

Tras romper el contrato por no eliminar ciertas cláusulas de seguridad con el Pentágono, OpenAI anunció varias horas después que había llegado a un acuerdo de colaboración con el Departamento de Defensa de EE. UU.

En el “Super Bowl” de 2026, Anthropic invirtió mucho en un anuncio que decía: “El anuncio entra en el campo de IA, pero no en Claude”. Esto fue como una “cara a cara” con OpenAI, que acaba de comenzar a probar funciones de publicidad…

¿Por qué los “hermanos” de antes, ahora están en conflicto abierto?

La raíz está en la lógica inherente al modelo de negocio de código cerrado: la supervivencia del código cerrado se basa en construir una barrera defensiva, y la premisa para ello es bloquear la difusión tecnológica y monopolizar la producción más avanzada. Además, las incompatibilidades en las rutas tecnológicas y las narrativas opuestas de productos generan naturalmente un equilibrio de Nash: quien primero “cesa fuego”, su narrativa de marca colapsará, y en la lucha interna, se profundiza en un pozo de desgaste.

02 La “evolución colaborativa” en el campo del código abierto

Volviendo a China, el escenario es completamente diferente.

Hace más de un año, la aparición de DeepSeek-R1 frenó la carrera desenfrenada de los grandes modelos, y los “seis pequeños tigres” en la fase final fueron los primeros en verse afectados. A diferencia de Silicon Valley, DeepSeek no actúa como un “tiburón” que devora todos los peces en la pecera, sino que, como una bagre, activó todo el ecosistema de grandes modelos en China, promoviendo la adopción del código abierto.

Un ejemplo directo es la trayectoria de crecimiento de “La cara de la luna”, que comenzó en 2023, con equipos fundadores pequeños pero con alta densidad de talento, y todos firmemente creyentes en la Ley de Escalado.

En julio de 2025, “La cara de la luna” lanzó Kimi K2, el primer modelo de código abierto con un billón de parámetros en el mundo, y en su informe técnico admitió que utilizó la arquitectura MLA de DeepSeek. Para los grandes modelos, el mayor problema con textos ultra largos es la memoria de la GPU, y la innovación de la arquitectura MLA radica en que, de manera ingeniosa, logró comprimir la caché KV en más del 93%.

Con el “estándar de la industria” aportado por DeepSeek, los equipos de grandes modelos en China no necesitan reinventar la rueda, reduciendo rápidamente los costos de inferencia.

Pero la historia no termina aquí.

Al revisar la documentación técnica de DeepSeek V4, se describe en detalle la arquitectura del modelo, y una actualización importante fue cambiar la mayoría de los optimizadores de los módulos de AdamW a Muon, logrando una convergencia más rápida y mayor estabilidad en el entrenamiento.

En la documentación técnica de Kimi K2.6, también se menciona el optimizador Muon, que en la misma cantidad de entrenamiento logró duplicar la eficiencia.

Ambos modelos mencionan el optimizador Muon, que fue propuesto por primera vez por el investigador independiente Keller Jordan a finales de 2024 en su blog. El equipo de “La cara de la luna”, que también enfrentaba problemas con AdamW, realizó mejoras clave en ingeniería en 2025, añadiendo capacidades como Decaimiento de Peso y Control RMS, y lo llamó MuonClip.

“La cara de la luna” fue la primera en validar la estabilidad del optimizador Muon en Kimi K2, logrando un entrenamiento sin picos de pérdida (“Loss Spike”). DeepSeek, al entrenar su gran modelo V4, también utilizó el optimizador Muon, que ya había sido probado.

Es importante señalar que la “evolución colaborativa” en los modelos de código abierto no conduce a la homogeneización, sino que avanza por un camino de “armonía en la diversidad”.

Por ejemplo, DeepSeek-V4 se centra en fortalecer las capacidades clave del modelo base, elevando el techo de rendimiento de los grandes modelos de código abierto a nivel mundial, y proporcionando una base que rivaliza con los modelos cerrados de vanguardia; Kimi K2.6 se especializa en la implementación de agentes, resolviendo los puntos débiles de la ejecución autónoma a largo plazo, y abriendo caminos clave para que los grandes modelos entren en escenarios de producción reales.

En todo este proceso, no hubo negociaciones comerciales prolongadas ni guerras de patentes tensas. En el campo del código abierto, la innovación tecnológica fluye libremente como el agua, y quien hace bien las cosas, todos lo usan.

En la ecología de código abierto, se extraen nutrientes y se complementan rutas tecnológicas. Los fabricantes chinos de grandes modelos han demostrado al mundo otra posibilidad fuera de Silicon Valley con acciones concretas.

03 EE. UU. construyendo muros, China “reparando caminos”

Mientras admiran la colaboración en código abierto, también deben enfrentar una realidad comercial.

Actualmente, los ingresos anuales de OpenAI y Anthropic superan los cien mil millones de dólares, mientras que los principales fabricantes nacionales de grandes modelos apenas cruzaron la puerta del ingreso anual de un millón de dólares.

La valoración en el mercado secundario de OpenAI es de aproximadamente 8.8 billones de dólares, y la de Anthropic ha alcanzado cerca de 10 billones. La valoración de Kimi y DeepSeek en su nueva ronda de financiamiento es de 18 mil millones y 20 mil millones de dólares, respectivamente.

Algunos afirman que la valoración de los fabricantes chinos de grandes modelos está subestimada, y otros creen: “Convertir la reputación tecnológica en dinero real es una prueba de vida o muerte para los fabricantes chinos”. Por ello, la discusión sobre la “relación costo-beneficio” del código abierto está en auge.

Para entender el fin, quizás se pueda comenzar por la etapa de competencia en grandes modelos:

La primera etapa es “competir en parámetros y benchmarks”. Para abril de 2026, esta etapa casi termina, y las puntuaciones en las listas ya no muestran diferencias sustanciales.

La segunda etapa es “competir en eficiencia de entrenamiento, costos de inferencia y innovación en arquitectura”. Es la etapa actual, resultado inevitable de la reducción de costos computacionales.

La tercera etapa será “competir en sistemas de agentes, ecosistemas y desarrolladores”. Cuando los tokens pasen de ser un flujo gratuito a un “combustible” para tareas, la prosperidad del ecosistema determinará la supervivencia.

¿En qué ecosistema se encuentran los grandes modelos de código abierto en China? Encontramos dos conjuntos de datos comparativos claros.

Uno es el costo de entrenamiento.

En agosto de 2025, GPT-5 costó más de 500 millones de dólares en entrenamiento; en comparación, Kimi K2 Thinking costó aproximadamente 4.6 millones de dólares; DeepSeek no publicó el costo de entrenamiento de la serie V4, pero el modelo V3 solo costó 5.576 millones de dólares… Los fabricantes chinos de grandes modelos usaron menos de una décima parte de los recursos de OpenAI y lograron modelos de nivel similar.

El otro es el volumen de llamadas.

A partir de 2026, los datos de la plataforma de agregación de múltiples modelos OpenRouter muestran que, impulsados por productos de agentes como OpenClaw, el consumo global de tokens ha crecido exponencialmente, y el “equipo de sueños de código abierto” de China, con su reputación de “fácil y barato”, ha superado continuamente a EE. UU. durante varias semanas.

La razón no es difícil de entender.

El ecosistema de código abierto en China ya ha establecido un “bucle de retroalimentación positiva”: la empresa A abre su tecnología base, la empresa B la adopta y la optimiza, y luego comparte los resultados y experiencias con todo el ecosistema. Mientras que la evolución de los modelos cerrados se basa en un crecimiento lineal impulsado por una enorme cantidad de potencia computacional, la ruta de código abierto traerá una difusión exponencial por el choque de innovaciones tecnológicas.

Según un informe de JP Morgan, entre 2025 y 2030, el consumo de tokens de inferencia de IA en China tendrá una tasa de crecimiento anual compuesta de aproximadamente 330%, pasando de 10 billones en 2025 a 3.9 cuatrillones en 2030, un aumento de 370 veces.

Es decir, en 2026 todavía estamos en las primeras fases de la explosión de IA, y en los próximos cinco años hay oportunidades de crecimiento de varias centenas de veces, aún lejos de una conclusión definitiva.

La confianza en las oportunidades a largo plazo, mientras las grandes empresas de Silicon Valley construyen muros, lleva a los fabricantes chinos de grandes modelos a optar por la colaboración y el refuerzo mutuo en el camino hacia la AGI.

04 Para concluir

¿Quién será el último en reír en esta ola de IA? La respuesta no solo depende de los modelos, sino también del control autónomo del poder computacional. Si se compara el modelo con una “bomba atómica”, entonces el poder computacional nacional, libre de bloqueos externos, sería como el “cohete” que lleva la bomba al cielo.

Lo reconfortante es que la integración de modelos nacionales y poder computacional nacional se está volviendo cada vez más estrecha: en la documentación técnica de DeepSeek V4, se mencionan tanto la NPU de Ascend como la GPU de Nvidia en la lista de hardware verificado; en el último artículo, “La cara de la luna” ejecuta la inferencia de grandes modelos en diferentes chips, abriendo la puerta a la participación masiva de chips nacionales en la inferencia de modelos.

A principios de 2025, DeepSeek R1 logró que los grandes modelos nacionales entraran en la lista; para 2026, el ecosistema de grandes modelos de código abierto en China continúa colaborando para crear más recursos que definan las reglas del juego.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado