¿Por qué se ha desarrollado tan rápido la IA en China? La respuesta está oculta dentro de los laboratorios

Título del original: Notas desde dentro de los laboratorios de IA en China
Autor del original: Nathan Lambert
Traducido por: Peggy, BlockBeats

Autor del original: BlockBeats
Fuente del original:
Reproducción: Mars Finance

Prólogo del editor: Los laboratorios de IA en China están convirtiéndose en una fuerza cada vez más difícil de ignorar en la competencia global de grandes modelos. Sus ventajas no solo son tener más talento, ingeniería fuerte y ciclos de iteración rápidos, sino también una organización muy realista: menos hablar de conceptos, más construir modelos; menos enfatizar a estrellas individuales, más enfocarse en la ejecución en equipo; menos depender de servicios externos, y más dominar su propia pila tecnológica.

El autor de este artículo, Nathan Lambert, después de visitar varios de los principales laboratorios de IA en China, descubrió que el ecosistema de IA en China no es exactamente igual al de EE. UU. Estados Unidos valora más los paradigmas originales, la inversión de capital y la influencia de científicos de élite; China, en cambio, es más hábil en avanzar rápidamente en direcciones ya existentes, mediante código abierto, optimización de ingeniería y la inversión de muchos jóvenes investigadores, llevando rápidamente las capacidades de los modelos a la vanguardia.

Lo más importante no es si la IA en China ya ha superado a la de EE. UU., sino que se están formando dos caminos de desarrollo diferentes: EE. UU. parece estar impulsado por capital y laboratorios de estrellas en una competencia de frontera, mientras que China parece estar impulsada por capacidades de ingeniería, ecosistema de código abierto y conciencia de control tecnológico, en una competencia industrial.

Esto significa que, en el futuro, la competencia en IA no será solo una lucha por las clasificaciones de modelos, sino también por capacidades organizativas, ecosistema de desarrolladores y ejecución industrial. El cambio real en la IA en China radica en que ya no se limita a copiar Silicon Valley, sino que participa en la frontera global a su manera.

A continuación, el texto original:

Sentado en un tren de alta velocidad que va de Hangzhou a Shanghái, miro por la ventana y veo cordilleras con relieves marcados, adornadas con aerogeneradores, formando siluetas bajo la luz del atardecer. Las montañas conforman el fondo, mientras que delante se extienden vastos campos y bloques de edificios entrelazados.

Regresé a China con una gran humildad. Viajar a un lugar tan desconocido y ser recibido con tanto entusiasmo fue una experiencia muy cálida y llena de humanidad. Tuve la suerte de conocer a muchas personas en el ecosistema de IA, que solo conocía de lejos; y su sonrisa brillante y su entusiasmo al recibirme me hicieron recordar que mi trabajo y todo el ecosistema de IA en sí mismo son globales.

Mentalidad de los investigadores en China

Las empresas chinas que están construyendo modelos de lenguaje pueden considerarse como “seguidores rápidos” de esta tecnología. Se basan en la larga tradición cultural y educativa de China, y también tienen formas de construir empresas tecnológicas que difieren algo de Occidente.

Si solo consideramos los resultados, es decir, los modelos más recientes y grandes, y los flujos de trabajo inteligentes que soportan; y si miramos los factores de inversión, como científicos destacados, grandes volúmenes de datos y recursos de computación acelerada, los laboratorios chinos y estadounidenses parecen similares en general. La verdadera diferencia a largo plazo radica en cómo se organizan y moldean estos factores.

Siempre he pensado que una de las razones por las que los laboratorios chinos son muy hábiles en seguir y mantenerse en la frontera es porque culturalmente están muy alineados con esta tarea. Pero antes de hablar con muchos científicos destacados y humildes en estos laboratorios, no quería atribuir esa intuición a una influencia importante. Después de conversar con muchos de ellos, mi comprensión se aclaró mucho más.

Hoy en día, construir los mejores modelos de lenguaje en gran escala depende en gran medida de un trabajo meticuloso en toda la pila tecnológica: desde los datos, los detalles arquitectónicos, hasta la implementación de algoritmos de aprendizaje por refuerzo. Cada parte del modelo puede mejorar, pero combinar esas mejoras en un todo es un proceso complejo. En ese proceso, el trabajo de individuos muy inteligentes a veces debe ser puesto en espera para maximizar el rendimiento en múltiples objetivos.

Los investigadores en EE. UU. también son muy hábiles en resolver componentes individuales, pero en su cultura predomina la idea de “hablar por uno mismo”. Como científicos, cuando luchan por llamar la atención sobre su trabajo, suelen tener más éxito; y la cultura actual también impulsa una nueva vía para hacerse famoso: convertirse en “científico de IA de primera línea”. Esto puede entrar en conflicto directo.

Se rumorea ampliamente que la organización de Llama colapsó bajo presión política después de que estas aspiraciones se integraron en una estructura jerárquica. También he oído que en algunos laboratorios, a veces es necesario “apaciguar” a un investigador de élite para que deje de quejarse de que sus ideas no se incluyeron en el modelo final. Independientemente de si esto es completamente cierto, el mensaje es claro: la autoconciencia y las aspiraciones profesionales pueden obstaculizar la construcción del mejor modelo. Incluso una pequeña diferencia cultural entre EE. UU. y China puede tener un impacto significativo en el resultado final.

Una parte de esa diferencia tiene que ver con quién está construyendo estos modelos en China. En todos los laboratorios, una realidad muy evidente es que una gran proporción de los contribuyentes clave todavía son estudiantes en formación. Estos laboratorios son bastante jóvenes, lo que me recuerda la organización en AI2: los estudiantes son considerados pares y se integran directamente en los equipos de modelos de lenguaje grande.

Esto contrasta mucho con los principales laboratorios en EE. UU. En EE. UU., empresas como OpenAI, Anthropic, Cursor, no ofrecen realmente pasantías. Google y otras empresas ofrecen en teoría pasantías relacionadas con Gemini, pero muchos temen que esas pasantías puedan estar aisladas del trabajo central real.

En resumen, esta ligera diferencia cultural puede potenciar la capacidad de construir modelos en China de varias maneras: las personas están más dispuestas a hacer trabajos menos glamorosos para mejorar el modelo final; los nuevos en IA no están tan influenciados por las olas anteriores de entusiasmo, por lo que pueden adaptarse más rápidamente a nuevas metodologías modernas; y muchos talentos están bien preparados para resolver problemas que otros ya han conceptualizado, entre otros.

Esta tendencia a favorecer la construcción de modelos de lenguaje actuales, en contraste con el estereotipo de que los investigadores chinos producen menos investigaciones académicas “desde cero” y más innovadoras y exploratorias, se ha visto en varias visitas académicas durante este viaje, donde muchos líderes mencionaron que están cultivando una cultura de investigación más ambiciosa. Sin embargo, algunos responsables técnicos con quienes conversé dudan que esa transformación en la forma de hacer ciencia pueda lograrse en el corto plazo, ya que requiere rediseñar sistemas educativos e incentivos, lo cual es muy difícil en la situación económica actual.

Este tipo de cultura parece estar formando un grupo de estudiantes e ingenieros muy hábiles en el “juego de construir grandes modelos de lenguaje”, y también hay una cantidad enorme de talento en ese sentido.

Estos estudiantes me dijeron que en China también está ocurriendo una fuga de talentos similar a la de EE. UU.: muchas personas que antes consideraban seguir una carrera académica ahora quieren quedarse en la industria. La frase más interesante vino de un investigador que originalmente quería ser profesor: dijo que quería ser profesor para estar cerca del sistema educativo; pero luego comentó que la educación ya está resuelta por los grandes modelos de lenguaje — “¿para qué quieren los estudiantes venir a hablar conmigo?”

Los estudiantes con ojos frescos en el campo de los modelos de lenguaje grande son una ventaja. En los últimos años, hemos visto cambiar continuamente los paradigmas clave: desde expandir MoE, hasta reforzar el aprendizaje, y ahora apoyar agentes inteligentes. Para hacer bien cualquiera de estos, se requiere absorber rápidamente una gran cantidad de antecedentes, incluyendo literatura más amplia y la pila tecnológica interna de la empresa.

Los estudiantes están acostumbrados a hacer estas cosas y dispuestos a dejar de lado prejuicios sobre “qué debería ser efectivo”. Se lanzan de lleno, invirtiendo su vida solo para mejorar los modelos.

También son sorprendentemente directos y no se distraen con debates filosóficos que a veces dividen a los científicos. Cuando les pregunto sobre el impacto económico de los modelos o los riesgos sociales a largo plazo, hay muchos menos investigadores chinos con opiniones complejas y que quieran influir en esas cuestiones. Ellos ven su papel simplemente en construir los mejores modelos.

Estas diferencias son sutiles y fáciles de negar. Pero cuando conversas con un investigador elegante, inteligente y que puede expresarse claramente en inglés, la sensación más fuerte es esa: cuando preguntas sobre aspectos filosóficos de la IA, esas cuestiones fundamentales quedan en el aire, y la otra persona muestra una simple confusión. Para ellos, eso es un error de categoría.

Incluso un investigador citó la famosa opinión de Dan Wang: en comparación con EE. UU., dominado por abogados, China está gobernada por ingenieros. Al hablar de estos temas, usó esa analogía para enfatizar su deseo de construir. En China, no existe un camino sistemático para cultivar la influencia de científicos como las estrellas en podcasts mainstream como Dwarkesh o Lex.

Intenté que científicos chinos comentaran sobre la incertidumbre económica futura provocada por la IA, o sobre cuestiones morales relacionadas con cómo deberían comportarse los modelos; pero esas preguntas me mostraron principalmente sus antecedentes y formación educativa (editado 1). Son extremadamente enfocados en su trabajo, pero crecieron en un sistema que no fomenta la discusión o expresión sobre cómo debería organizarse la sociedad o qué cambios debería tener.

Mirando en perspectiva, especialmente en Beijing, la sensación que tengo es que se asemeja mucho a la Bahía: un laboratorio competitivo, a solo unos minutos a pie o en taxi. Después de aterrizar, en el camino al hotel, pasé por el campus de Alibaba en Beijing. En las siguientes 36 horas, visitamos Zhipu AI, Dark Side of the Moon, Tsinghua University, Meituan, Xiaomi y 01.ai.

Moverse en Didi en China es muy conveniente. Si eliges un vehículo XL, a menudo te asignan una minivan eléctrica con masajeador. Preguntamos a los investigadores sobre la competencia por talento, y dijeron que es muy similar a lo que experimentamos en EE. UU. Es normal que los investigadores cambien de trabajo, y la elección de dónde ir depende en gran medida del ambiente en ese momento.

En China, la comunidad de modelos de lenguaje grande se percibe más como un ecosistema que como tribus en guerra. En muchas conversaciones no públicas, casi todo el respeto es mutuo. Todos los laboratorios chinos temen a ByteDance y su popular modelo Doubao, porque es la única empresa china de vanguardia en modelos cerrados. Al mismo tiempo, todos respetan mucho a DeepSeek, considerado el laboratorio con mayor gusto en investigación en la capa de implementación. En EE. UU., cuando hablas en privado con miembros de un laboratorio, las chispas saltan rápidamente.

Lo que más me impresionó de la humildad de los investigadores chinos es que, en el plano comercial, a menudo simplemente dicen que no es su problema. En EE. UU., parece que todos están obsesionados con las tendencias industriales en diferentes niveles: desde vendedores de datos, hasta potencia de cálculo y financiamiento.

Diferencias y similitudes entre la industria de IA en China y los laboratorios occidentales

Lo que hace tan interesante construir un modelo de IA hoy en día es que ya no se trata solo de reunir a un grupo de investigadores talentosos en un mismo edificio para crear un milagro de ingeniería. Antes, eso era más o menos así, pero para mantener un negocio de IA, los modelos de lenguaje grande se están convirtiendo en un híbrido: involucra construcción, despliegue, financiamiento y promover la adopción de esa creación.

Las principales empresas de IA existen en ecosistemas complejos. Estos ecosistemas proporcionan fondos, potencia de cálculo, datos y más recursos para seguir impulsando la frontera.

En el ecosistema occidental, la forma en que se integran los diversos factores necesarios para crear y mantener modelos de lenguaje grande ya ha sido bastante conceptualizada y mapeada. Anthropic y OpenAI son ejemplos típicos. Por lo tanto, si encontramos que los laboratorios chinos piensan de manera claramente diferente en estos aspectos, podremos identificar en qué áreas futuras las empresas pueden apostar a diferencias significativas. Por supuesto, estos futuros también estarán muy influenciados por restricciones de financiamiento y/o recursos computacionales.

Los principales aprendizajes que obtuve tras conversar con estos laboratorios son los siguientes:

Primero, ya hay señales tempranas de demanda de IA en China. Una hipótesis ampliamente discutida es que el mercado chino de IA será más pequeño, porque las empresas chinas generalmente no están dispuestas a pagar por software, y por tanto nunca se liberará un mercado de inferencia lo suficientemente grande para sostener un laboratorio.

Pero esa evaluación solo aplica a gastos en software relacionados con ecosistemas SaaS. Y en China, el ecosistema SaaS ha sido históricamente pequeño. Por otro lado, China claramente aún tiene un enorme mercado de nube.

Una pregunta clave sin respuesta aún es: ¿los gastos de las empresas chinas en IA serán más parecidos a un mercado SaaS, es decir, de menor escala, o a un mercado de nube, es decir, gastos fundamentales? Incluso en los laboratorios chinos, esto se discute. En general, siento que la IA se acerca más a un mercado de nube, y no hay mucha preocupación de que el mercado formado en torno a nuevas herramientas no pueda crecer.

Segundo, la mayoría de los desarrolladores están muy influenciados por Claude. Aunque en China Claude está oficialmente prohibido, la mayoría de los desarrolladores chinos están muy fascinados con Claude y cómo ha cambiado su forma de construir software. Que China no haya sido muy dispuesta a comprar software en el pasado no significa que no vaya a haber una gran ola de demanda de inferencia en el futuro.

Los técnicos chinos son muy pragmáticos, humildes y motivados. Esto me da la sensación de que es una cualidad aún más fuerte que la tradición de “no gastar en software”.

Algunos investigadores chinos mencionan que usan sus propias herramientas, como Kimi o las herramientas de línea de comandos de GLM, pero todos hablan de usar Claude. Sorprendentemente, pocos mencionan Codex, que claramente está ganando popularidad rápidamente en la Bahía.

Tercero, las empresas chinas tienen una mentalidad de propiedad tecnológica. La cultura china, combinada con una economía en pleno auge, genera resultados impredecibles. Una impresión profunda que me quedó es que la gran cantidad de modelos de IA refleja un equilibrio pragmático en muchas empresas tecnológicas aquí. No existe un plan maestro único.

Este sector está definido por un respeto hacia ByteDance y Alibaba, considerados grandes actores con recursos que probablemente ganarán muchos mercados. DeepSeek es respetado como líder técnico, pero no es un líder de mercado. Marca dirección, pero no tiene la estructura económica para dominar el mercado.

Quedan empresas como Meituan o Ant Group. Los occidentales podrían sorprenderse de por qué también están construyendo estos modelos. Pero en realidad, claramente ven los grandes modelos de lenguaje como el núcleo de futuros productos tecnológicos, y necesitan una base sólida para ello.

Cuando ajustan un modelo general potente, la retroalimentación de la comunidad de código abierto fortalece su pila tecnológica, y también pueden mantener versiones ajustadas internamente para sus propios productos. La mentalidad de “prioridad en apertura” en esta industria está muy influenciada por el pragmatismo: ayuda a obtener retroalimentación fuerte, contribuye a la comunidad open source y también potencia su propia misión.

Cuarto, el apoyo gubernamental existe, pero en escala aún no clara. Se afirma que el gobierno chino está ayudando activamente en la competencia de modelos de lenguaje abierto. Pero se trata de un sistema gubernamental descentralizado y con múltiples niveles, sin un manual operativo claro que defina qué debe hacer cada nivel.

Los diferentes distritos de Beijing compiten por atraer empresas tecnológicas. La “ayuda” que ofrecen casi seguramente incluye eliminar burocracia, como permisos y licencias. Pero ¿hasta qué punto puede llegar esa ayuda? ¿Pueden los diferentes niveles del gobierno atraer talento? ¿Pueden ayudar a importar chips?

Durante toda la visita, se mencionaron muchas veces los intereses o apoyos del gobierno, pero la información no fue suficiente para que pueda hacer afirmaciones firmes o tener una visión confiada sobre cómo puede cambiar la trayectoria del desarrollo de IA en China.

Por supuesto, no hay indicios de que las altas esferas del gobierno chino influyan en decisiones técnicas sobre modelos.

Quinto, la industria de datos en China aún está muy por detrás de Occidente. Se ha dicho que empresas como Anthropic o OpenAI gastan más de 10 millones de dólares en un solo entorno, y que los gastos acumulados en investigación de aprendizaje reforzado alcanzan cientos de millones de dólares anuales. Nos preguntamos si los laboratorios chinos también compran entornos similares a los de EE. UU., o si existe un ecosistema doméstico que los respalde.

La respuesta no es que no exista una “industria de datos”, sino que, según su experiencia, la calidad de esa industria es relativamente baja, por lo que muchas veces es mejor construir entornos o datos internamente. Los investigadores dedican mucho tiempo a crear entornos de entrenamiento para aprendizaje reforzado, y empresas grandes como ByteDance o Alibaba pueden tener equipos internos de etiquetado de datos para apoyar esto. Todo esto refuerza la mentalidad de “construir en casa, no comprar”.

Sexto, hay una demanda muy fuerte por chips de Nvidia. La potencia de cálculo de Nvidia es el estándar de oro para entrenamiento, y el progreso de todos está limitado por la falta de más recursos computacionales. Si hubiera suficiente suministro, claramente comprarían. Otros aceleradores, incluido Huawei, han sido bien valorados en inferencia. Muchas instituciones pueden usar chips de Huawei.

Estos puntos dibujan un ecosistema de IA muy diferente. Si intentamos aplicar rápidamente la forma de operar de los laboratorios occidentales en China, a menudo cometeremos errores de categoría. La cuestión clave es si estos ecosistemas diferentes producirán tipos de modelos con diferencias sustanciales, o si los modelos chinos siempre serán interpretados como similares a los modelos de frontera de EE. UU. de hace 3 a 9 meses.

Conclusión: equilibrio global

Antes de este viaje, sabía muy poco sobre China; al terminar, siento que apenas estoy empezando a aprender. China no es un lugar que pueda describirse con reglas o recetas, sino un lugar con mecanismos de impulso y reacciones químicas muy diferentes. Su cultura es tan antigua, tan profunda, y todavía está completamente entrelazada con la forma en que se construye la tecnología en el país. Tengo mucho por aprender.

Muchas partes de la estructura de poder actual en EE. UU. consideran su visión de China como una herramienta psicológica clave en la toma de decisiones. Después de haber conversado formal o informalmente con casi todos los principales laboratorios de IA en China, he descubierto que China posee muchas cualidades e instintos que son muy difíciles de modelar desde la perspectiva occidental.

Incluso cuando pregunto directamente por qué estos laboratorios lanzan sus modelos más potentes, todavía me resulta difícil conectar completamente la “mentalidad de propiedad” con la “sincera intención de apoyar la comunidad”.

Los laboratorios aquí son muy pragmáticos, no necesariamente absolutistas en el open source, y no todos sus modelos se publican. Pero tienen una intención profunda de apoyar a los desarrolladores, apoyar el ecosistema y usar la apertura como una forma de entender mejor sus propios modelos.

Casi todas las grandes empresas tecnológicas chinas están construyendo sus propios modelos de lenguaje grande. Ya hemos visto que plataformas como Meituan o grandes empresas de consumo como Xiaomi han lanzado modelos con pesos abiertos. En EE. UU., las empresas similares suelen solo comprar servicios.

Estas empresas construyen modelos de lenguaje grande no para destacar en las tendencias de moda, sino por un deseo profundo y fundamental: controlar su pila tecnológica y desarrollar las tecnologías más importantes del momento. Cuando levanto la vista de mi portátil y veo grúas en el horizonte, eso encaja claramente con la cultura de construcción y energía constructiva más amplia en China.

La calidez, el encanto y la sinceridad de los investigadores chinos generan una sensación de cercanía. En el plano personal, la discusión dura y geopolítica que estamos acostumbrados en EE. UU. no penetra en ellos. Este mundo podría tener más de esa sencillez y positividad. Como parte de la comunidad de IA, ahora me preocupa más que las divisiones entre miembros y grupos, en torno a etiquetas nacionales, puedan crear fisuras.

Si digo que no quiero que los laboratorios estadounidenses sean los líderes claros en cada parte de la pila tecnológica de IA, estaría mintiendo. Especialmente en el campo de los modelos abiertos, donde he invertido mucho tiempo, soy estadounidense y eso es una preferencia honesta.

Al mismo tiempo, deseo que el ecosistema abierto pueda prosperar globalmente, porque eso puede crear IA más segura, accesible y útil para el mundo. La pregunta ahora es si los laboratorios estadounidenses tomarán medidas para ocupar esa posición de liderazgo.

Al escribir este artículo, circulan más rumores sobre cómo la orden ejecutiva podría afectar los modelos abiertos. Esto podría complicar aún más la relación entre liderazgo estadounidense y ecosistema global — y eso no me da más confianza.

Agradezco a todos los excelentes profesionales con quienes tuve la oportunidad de conversar en Dark Side of the Moon, Zhipu AI, Meituan, Xiaomi, Qianwen Tongyi, Ant Lingguang, 01.ai y otros. Todos fueron muy entusiastas y generosos con su tiempo. A medida que mis ideas se consolidan, seguiré compartiendo observaciones sobre China, incluyendo aspectos culturales más amplios y el propio campo de la IA.

Obviamente, estos conocimientos estarán directamente relacionados con la historia en desarrollo en la frontera de la IA.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado