Kimi no tiene la misión de DeepSeek

MaticHoleFiller · 2026-04-03T07:48:42+00:00

文|阑夕2024O quizás aún recuerdes, en el no tan lejano 2024, Kimi fue la estrella emergente de la inteligencia artificial en China: financiamiento de 1,000 millones de dólares, acciones relacionadas con Kimi que alcanzaron múltiples límites diarios, 2M de caracteres de entrada que superaron a GPT, y una estrategia de promoción agresiva.Pero la exposición que lograron en ese momento superaba con creces su influencia técnica.De hecho, ese modelo de 2M de caracteres, posteriormente, fue utilizado por muy pocos. Luego se supo que era un modelo experimental, con un costo de ejecución cercano a las 3 cifras, y completamente inviable para servir a una gran cantidad de usuarios a gran escala.En ese momento, el círculo tecnológico despreciaba a Kimi.Pero con el truco del modelo de 2M de caracteres, Kimi logró consolidar la etiqueta de 'texto largo' y captar la atención de los usuarios.20252025

MaticHoleFiller

2026-04-03 07:48:42

文|阑夕

2024

Quizás recuerdes que, en el 2024 no tan lejano, Kimi era el fenómeno más candente de la IA en China: financiación de 1.000 millones de dólares, muchas subidas consecutivas con el “concepto Kimi”, una entrada de 2 millones de caracteres que aplastaba a GPT y una estrategia agresiva de promoción con inversión en pauta.

Pero la exposición que recibieron entonces superó muy por encima su propio impacto técnico.

De hecho, aquel modelo de 2 millones de caracteres, más tarde, pudo ser aprovechado por muy poca gente. Después me enteré de que era un modelo experimental: el coste de ejecución se acercaba a un número de tres dígitos y, en absoluto, tenía posibilidades de prestar un servicio a usuarios a gran escala.

En aquel momento, el sector tecnológico consideraba a Kimi con desdén.

Pero gracias al gancho del “modelo de 2 millones de caracteres”, Kimi aun así consiguió afianzarse en la etiqueta de “textos largos” y en la mentalidad de los usuarios.

2025

A comienzos de 2025, DeepSeek apareció de repente, y se convirtió de verdad en la voz representante de la tecnología de IA en China gracias a su solidez técnica.

Hacia mediados de 2025, Kimi ya casi cumplía un año sin noticias de que levantara financiación. “Desacreditarlo” se convirtió en la melodía principal: empezó la fuga de empleados y, en la industria, básicamente ya habían sentenciado a muerte este proyecto de inicio.

Si te cerraste en un retiro desde mediados de 2025 durante 9 meses, y en marzo de 2026 ves las noticias:

La valoración más reciente de Kimi es de 1,2 billones;
Los ingresos de Kimi en 20 días superan los del año anterior;
El modelo de Kimi fue “reutilizado” por el muy popular herramienta de programación de IA Cursor, con una valoración de 350 mil millones, y se confirma (como te retiraste 9 meses, no sabes que la herramienta de programación de IA más popular ya es Claude Code; Cursor ya es segundo lugar);
El nuevo modelo de Kimi transporta el 20% del tráfico de internet; su capitalización supera los 120B. Cloudflare lo introdujo como modelo principal;
El nuevo modelo de Kimi se convirtió en el único modelo de código abierto y el modelo chino que Perplexity, la mayor aplicación de búsqueda de IA independiente del mundo, incorporó por primera vez;
La nueva tecnología de Kimi, “attention residuals”, empezó a remodelar la arquitectura del deep learning y sus cimientos durante más de 10 años, y recibió elogios de quienes fueron cofundadores de OpenAI, Andrej Karpathy, del padre de los modelos de inferencia de OpenAI, Jerry Tworek, y también de Musk;
Yang Zhilin se convirtió en el representante de una empresa china independiente de modelos grandes que fue invitada a dar la única ponencia en la conferencia anual GTC 2026 de Nvidia……

Es muy probable que se te caiga la mandíbula.

Todo el mundo dice “un día de IA equivale a un año en el mundo real”. En el ámbito de la IA, efectivamente sucedieron muchas cosas en 9 meses.

Pero, en última instancia, hay algo: cambió el paradigma de la tecnología de IA. La forma más común y también la más perezosa de resumirlo es “de Chat a Agent”.

Para los 30 millones de programadores del mundo, el cambio es que la herramienta más valorada pasó de Cursor a Claude Code.

Para los early adopters, que siempre son los primeros en abrazar la nueva tecnología, el cambio es abrir con más frecuencia aquel terminal de línea de comandos en blanco y negro que parece un sistema DOS……

Para las empresas de IA, el cambio es que todos han ido descubriendo: un modelo que sabe conversar mejor no vale tanto como un modelo que sabe programar y llamar herramientas.

El producto más genial pasó de ChatGPT a Claude Code; la startup más genial también pasó de OpenAI a Anthropic.

Volvamos al mercado chino de comienzos de 2025.

DeepSeek R1 se hizo tremendamente popular porque replicó y abrió el código de la capacidad de “deep thinking” de OpenAI o1; otro producto de “Agent general”, Manus, también apareció de la nada……

En aquel momento, la mayoría de las empresas de IA en China estaban ocupadas replicando DeepSeek R1 y lanzando nuevos modelos capaces de “deep thinking”. Solo unas pocas compañías entendieron que el modelo detrás de Manus era “lo que de verdad valía la pena” para invertir recursos en “replicarlo”. O lo entendieron, pero no asignaron recursos suficientes, o no encontraron una forma de hacerlo.

Uno de los grandes valores de Manus es que hace visible la capacidad del modelo de Claude de realizar llamadas a herramientas en múltiples turnos. Como escribió un experto técnico de una empresa de modelos grandes en su propio blog: “la gran mayoría de los productos de Agent, sin Claude, no son nada”.

Hasta julio de 2025, el primer modelo de China que se enfocó en capacidades de Agent apareció en silencio. El 11 de julio, Kimi K2 se lanzó con el lema “Open Agentic Intelligence”. Aquí, obviamente, esconden sus ambiciones: replicar la capacidad de Agent de los modelos de Claude y abrirla al código, como DeepSeek R1 replicó OpenAI o1 y lo abrió al código.

Cinco días después del lanzamiento, el 16 de julio, la revista Nature del Reino Unido descubrió el valor de este modelo, describiéndolo como “otro momento DeepSeek”.

Diez días después del lanzamiento, el 21 de julio, el cofundador de Anthropic, Jack Clark, presentó en su blog su introducción de K2 y lo evaluó así:

“A mi juicio, Kimi es un modelo bastante decente: va con unos meses de retraso respecto a la vanguardia en Estados Unidos, y continúa la trayectoria de DeepSeek. Sus puntuaciones de codificación y llamadas a herramientas ya son lo suficientemente altas como para que, en la realidad, alguien lo use de verdad; así que observar su tasa de adopción reflejará su competitividad.”

A finales de julio, Yang Zhilin, en una entrevista en un podcast, explicó por qué K2 no hizo primero “deep thinking”, sino que se centró en las capacidades de programación y llamadas a herramientas que requiere un Agent. Lo llamó “cerebro en un frasco” para describir a los modelos que se enfocan en deep thinking. Por cierto, la entrevista de Yang Zhilin vale la pena verla varias veces: dijo muchas cosas más esenciales a nivel técnico, como la relación entre programación y Agent, y la relación entre el pensamiento y las llamadas a herramientas.

Por el desempeño de K2 y los modelos posteriores K2 Thinking, la financiación de Kimi se reanudó al fin a finales de año: 500 millones de dólares; IDG y varios inversores veteranos siguieron reforzándola.

2026

Hacia el periodo previo o posterior al Año Nuevo Lunar de 2026, en esa locura de temporada de lanzamiento de modelos grandes, Kimi fue el primero en entregar el trabajo. Posiblemente también fue el que más incomodó a los colegas, porque la capacidad multimodal de comprensión de K2.5 con billones de parámetros, imágenes y video, además de modos de pensamiento y no pensamiento. Las otras startups que lanzaron lo hicieron con modelos de texto puro. Con capacidad para integrar habilidades multimodales en un modelo insignia, solo hay modelos cerrados de grandes empresas.

El 16 de marzo, el equipo de Kimi publicó el paper técnico “Attention Residuals”, desafiando el mecanismo de conexiones residuales de base en redes neuronales que ya tiene 10 años. El cofundador de OpenAI, Andrej Karpathy, criticó con dureza que “nos hace ver que no comprendimos a fondo ‘Attention is All You Need’”. Hay que saber que “Attention is All You Need” es el Santo Grial que abrió la era de los modelos grandes; incluso teniendo en cuenta la inflación de palabras del “AI circle”, esta valoración es sin precedentes de alta. Se dice que el primer autor del paper es un estudiante de bachillerato de solo 17 años; genio y joven destacado de verdad, y realmente da que pensar.

El 17 de marzo, tras el CES 2026 a inicios de año, el modelo de Kimi volvió a ser el modelo elegido por Nvidia para mostrar chips de próxima generación y rendimiento de inferencia, en el discurso principal de GTC 2026 de Huang Renxun.

El 18 de marzo, como el único representante de una empresa china independiente de modelos grandes invitada a la conferencia anual GTC de Nvidia, la presentación en vivo de Yang Zhilin fue todo sustancia. Empezó comparando los tres módulos centrales—el optimizador, el mecanismo de atención y las conexiones residuales—con estándares técnicos obsoletos con 8-11 años de historia. Dijo que eso es un obstáculo para continuar Scaling, y que, rompiendo con tecnología nueva, se demuestra que “cada tecnología base merece volver a pensarse”.

Luego están los “escándalos de Cursor” de estos días, ya conocidos por todos: ¿quién habría imaginado que, Cursor, el mayor asistente de programación del mundo con una valoración de 50 mil millones de dólares, lanzara su nueva generación de modelo de programación Composer 2—con puntajes de benchmark que superan a Claude Opus 4.6—y que, sin embargo, fuera un “cascarón” del Kimi K2.5……

Como Cursor está posicionado como intermediario de tokens, por eso necesita impulsar su “desarrollo propio” de la pila; la razón principal es liberarse de su alta dependencia de Anthropic y OpenAI. Si te “bloquean el cuello”, no importa el país: Anthropic también llegó a “interrumpir el suministro” de herramientas de programación como Windsurf. En un entorno donde al mismo tiempo juegan el rol de árbitro y de competidor, se entiende completamente el deseo de Cursor de ser independiente y autosuficiente.

Solo que, debido al enorme abismo entre la capacidad y la visión, Cursor eligió borrar el nombre del modelo base proveniente de Kimi, buscar financiación mediante escritura por encargo. Al final, el asunto también terminó de una manera bastante digna: el cofundador de Cursor se disculpó públicamente. En el informe técnico, dio las razones detalladas para elegir Kimi K2.5 como modelo base, y la respuesta oficial de Kimi indicó que se alegraban de que Cursor utilizara Kimi K2.5 como base, y que ambas partes hicieron una autorización técnica a través del proveedor de servicios de inferencia Fireworks AI.

Según rumores, hacia el periodo previo o posterior al Año Nuevo Lunar de 2026, Kimi completará de forma escalonada rondas de financiación con valoraciones de preinversión de 4.800 millones de dólares, 6.000 millones de dólares y 10.000 millones de dólares, sumando un total cercano a 2.000 millones de dólares; la ronda de 18.000 millones iniciada en marzo también tendrá que hacer cola para obtenerse.

Por supuesto, esto también se benefició del rendimiento extraordinario de dos competidores en las acciones de Hong Kong, pero lo más importante sigue siendo el desempeño real de su K2 y los modelos posteriores, incluyendo los “beneficios” constantes que llegan del Cursor, Cloudflare, Perplexity, Huang Renxun, Musk, Marc Andreessen, Chama, etc., descritos arriba, y también el desempeño financiero después del lanzamiento de K2.5: en 20 días, los ingresos superaron los del año anterior.

Un amigo de Kimi, en una conversación privada, dijo que lo que limita el desarrollo del negocio es solo la capacidad de cómputo; ahora al menos todavía hay 10 veces de demanda que no se ha satisfecho. Con cuántas tarjetas haya, habrá cuántos ingresos. Según entiendo por mi conversación con otro amigo que trabaja en un gran fabricante, algunas grandes empresas, en las herramientas de programación que integran, incluso tienen que reservar por adelantado para poder obtener suficiente cupo.

En estos 9 meses, Kimi logró, en cierto modo, un cambio de destino “imposible de creer”.

Destino

DeepSeek V3 no se “creó” en un solo día. Los genes de cuantificación de la entidad detrás, Fang Fang, determinaron que desde 2023 tomaran un camino de eficiencia energética extrema totalmente distinto al de Silicon Valley. Durante la mayor parte del periodo de 2023 a 2024, se mantuvieron al margen del relato principal, dedicándose a investigación y desarrollo propio: MLA (mecanismo de atención latente de múltiples cabezas) y la arquitectura DeepSeekMoE, intentando exprimir, con cómputo limitado, un rendimiento que superara los límites físicos. Hasta que en 2025 lograron su propia meta, lo que también dio confianza a otras startups de IA.

Todos esperan que la próxima generación de modelos de DeepSeek siga sorprendiendo a todo el mundo, pero en los medios el juego repetido del “lobo viene, lobo viene” solo va a desgastar la atención de todos. Las innovaciones técnicas, ¿cómo es que serían tan fáciles? Tenemos razones para esperar con más paciencia la próxima obra del equipo de DeepSeek.

Kimi K2 tampoco se “creó” en un solo día. En realidad, publicaron el modelo K1.5 que pasó desapercibido el mismo día que DeepSeek R1; OpenAI lo reconoció oficialmente como una de las dos compañías que primero replicaron o1. En el peor momento en 2025, cuando estaban siendo desacreditados con más fuerza, lanzaron la serie Moonlight de modelos MoE pequeños para validar la tecnología de un optimizador de segundo nivel para la próxima generación, y finalmente la aplicaron al modelo K2 de billones. Ahora, Muon ha reemplazado a Adam, la tecnología estándar de hace 10 años, convirtiéndose en el nuevo estándar que los modelos de Kimi, GLM-5 y DeepSeek Engram empezaron a adoptar.

Como dice el dicho: “cuando sales al mundo, siempre toca devolver los favores”. Kimi adelantó en 2024 el disfrute del puesto central y la exposición, pero en 2026 ya no volvió a replicar el flujo de tráfico que le correspondía.

Cada uno tiene su propio destino.

Como dos startups que comenzaron prácticamente al mismo tiempo, admiro esa clase de valentía y energía juvenil: nunca creer que la estructura del mercado ya está decidida, confiar en que la tecnología es la mayor variable, y atreverse a perseguir el AGI. Con historial de logros comprobable, siempre con la convicción de que el tiempo vale y la estrategia de “paso a paso en el tiempo largo” es la correcta.

Incluso mirando desde el final de marzo de 2026, esta revolución de IA que comenzó a finales de 2022 solo lleva 3 años y medio; todavía todo está empezando. ¿Por qué el próximo OpenAI y Anthropic no podrían ser una empresa china?

Noticias masivas, interpretación precisa: todo en la aplicación Sina Finance

责任编辑：杨赐

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.