Decodificando la primera larga publicación de Lin Junyang tras su salida: 6 lecciones para invertir en IA

Después de dejar Alibaba Qwen hace tres semanas, Lin Junyang, quien antes fue un personaje central muy destacado de Tongyi Qwen, publicó su primer artículo técnico público después de su salida: “De ‘razonamiento’ a ‘pensamiento agentic’ (From ‘Reasoning’ Thinking to ‘Agentic’ Thinking)”.

Este artículo largo en inglés de 6000 palabras hace una retrospectiva basada en sus experiencias prácticas de entrenamiento de modelos y observaciones previas, y ofrece varias conclusiones sobre direcciones que podrían llamar la atención de participantes de competiciones de IA.

En este artículo, Lin explica detalladamente la importancia del paradigma de pensamiento Agent para el entrenamiento de modelos.

Respecto a la función de retroalimentación de Agent en el entrenamiento de modelos de IA, Huqiu Yunjian publicó antes el artículo “El despertar amargo de los Agent: la inteligencia está pasando del lenguaje a la experiencia”, que intentó, partiendo del aprendizaje por refuerzo de Sutton, interpretar por qué Agent es el camino ineludible hacia límites superiores de inteligencia más altos.

Y en este artículo, Lin Junyang, combinando su práctica técnica personal desde el equipo Qwen, aporta más referencias y evidencias “duras” con detalles de ingeniería sobre el pensamiento agentic para agentes: señala con mayor precisión dónde exactamente fallan los modos tradicionales de razonamiento y cuáles podrían ser las restricciones centrales y puntos de competencia de la inteligencia futura de los agentes.

Para quienes intentan entender los cambios en la próxima etapa de la IA, este artículo quizá esconda al menos 6 ideas de inversión que vale la pena digerir con seriedad.

1. Decrecimiento de la utilidad marginal del razonamiento

A principios de 2025 —e incluso antes—, toda la industria estaba haciendo lo mismo: lograr que el modelo “piense un poco más”.

o1 de OpenAI demostró que “pensar” puede convertirse en una capacidad central entrenada específicamente, y la industria se emocionó y se volcó a esta carrera armamentista, con una creencia central solo una: si el modelo consume más cómputo en la fase de razonamiento, puede producir mejores respuestas.

Pero Lin Junyang plantea en el artículo un juicio muy sereno:

Una trayectoria de razonamiento más larga no hace automáticamente al modelo más inteligente.

Muchas veces, el razonamiento excesivamente explícito, en realidad, revela una mala asignación de recursos.

Esta es una conclusión contraintuitiva que merece atención.

De 2024 a 2025, la lógica de fijación de precios del “modelo de razonamiento” en el mercado se apoya en una suposición sencilla: cuanto más tiempo piensa el modelo, mejores son las respuestas; por lo tanto, cuanto más largo es el tiempo de razonamiento, mayor es el valor.

El consumo de GPU se convirtió en un indicador proxy del nivel de inteligencia. En el mercado de capital semilla y de etapa temprana, el discurso de financiamiento de muchas startups también se centra en “nuestro modelo razona más profundo”.

Pero las experiencias personales que Lin Junyang cuenta desde el equipo Qwen muestran que esta suposición está dejando de funcionar. Si un modelo intenta pensar todos los problemas de manera igualmente larga, significa que no ha logrado juzgar eficazmente la prioridad, no ha podido comprimir la información a tiempo, y no ha actuado con decisión cuando correspondía. Escribió:

El pensamiento debe estar moldeado por el trabajo objetivo.

Si el objetivo es codificar, el pensamiento debería ayudar al modelo a hacer navegación por el repositorio de código, planificación de tareas y recuperación de errores; si el objetivo es un flujo de trabajo de agentes, el pensamiento debería mejorar la calidad de la ejecución a escalas de tiempo largas, “en lugar de producir un texto intermedio de razonamiento que solo parece muy impresionante”.

Traducido al lenguaje de inversión es: el rendimiento marginal del cómputo para razonamiento está disminuyendo.

La ruta técnica basada únicamente en apilar más tiempo de razonamiento se está acercando a su límite de economía. Las empresas que aún utilizan “profundidad de razonamiento” como narrativa central de valoración podrían necesitar replantearse dónde está realmente construido su foso defensivo.

2. La fragilidad del “modelo unificado”

Lin Junyang revela en el artículo una decisión de ruta poco conocida: el equipo Qwen intentó fusionar “el modo de pensamiento” y “el modo de instrucciones” en el mismo modelo.

Este objetivo suena naturalmente correcto. Un sistema ideal debería comportarse como un experto experimentado: responder directamente a problemas simples, pensar en profundidad ante problemas complejos, y además poder juzgar por sí mismo cuándo usar cada modo.

Qwen3 es uno de los intentos públicos más claros en esa dirección: introduce “modos de pensamiento híbridos”, y permite que la misma familia de modelos tenga simultáneamente comportamientos de pensamiento y de no pensamiento, enfatizando además presupuestos de pensamiento controlables.

Pero Lin Junyang admite que fusionar lo simple es fácil, y hacer que funcione en verdad es extremadamente difícil; la dificultad no está en la arquitectura del modelo, sino en los datos.

A un modelo de instrucciones fuerte se le recompensa por ser directo, conciso, respetar el formato y mostrar baja latencia en tareas empresariales de alta frecuencia y alto throughput; a un modelo de pensamiento fuerte se le recompensa por estar dispuesto a invertir más tokens en problemas difíciles, mantener una estructura intermedia coherente y explorar rutas alternativas.

Estos dos perfiles de comportamiento naturalmente tiran en direcciones opuestas.

Como describe Lin Junyang:

Si los datos de fusión no han pasado por un filtrado y un diseño lo suficientemente fino, el resultado suele ser que ambos quedan mal: el comportamiento de pensamiento se vuelve ruidoso, voluminoso y vacilante; mientras que el comportamiento del modo de instrucciones pierde la rapidez, la fiabilidad y la ventaja en costos que debería tener.

Esta es precisamente la razón por la cual la versión 2507 de Qwen introdujo finalmente las actualizaciones Instruct y Thinking de manera independiente, incluyendo las versiones independientes de 30B y 235B.

En el despliegue comercial, para una gran cantidad de clientes lo que se necesita es un modo de instrucciones con alto throughput, bajo costo y fuerte control; forzar una fusión, por tanto, difumina la propuesta de producto.

Anthropic tomó un camino opuesto. Claude 3.7 Sonnet fue definido como un modelo de razonamiento híbrido: el usuario puede elegir respuestas normales o ampliar el pensamiento; Claude 4 va un paso más allá y permite que el proceso de razonamiento y el uso de herramientas se entrecrucen. GLM-4.5 y DeepSeek V3.1 también tomaron más tarde direcciones similares.

Para estas dos rutas, el juicio que ofrece Lin Junyang es: una fusión realmente exitosa requiere que la inversión de razonamiento exista como un espectro suave y continuo, y que el modelo pueda adaptarse para elegir cuánta fuerza dedicar a pensar. Si no se logra, “la experiencia de producto sigue sin ser natural” y, en esencia, sigue siendo “dos personalidades unidas a la fuerza”.

La lección para inversores es muy directa: no dejarse convencer fácilmente por narrativas como “modelo unificado” o “un modelo que puede hacer de todo”.

Que un modelo afirme cubrir todos los escenarios, y que en realidad pueda lograr lo óptimo en cada escenario, son dos cosas distintas.

Las verdaderas barreras técnicas de valor real se esconden en la proporción de datos, el diseño del flujo de entrenamiento, la alineación del comportamiento: lugares que no puede capturar una sola tabla de puntuaciones de referencia. En el “todo incluido” de las PPT de financiación, cuando llega el despliegue comercial, a menudo hay que enfrentar compromisos de suma cero a nivel de datos.

3. Elevar el nivel del objeto de entrenamiento

El resumen con más peso en todo el artículo de Lin Junyang quizá sea: “Estamos pasando de una era centrada en entrenar modelos, a una era centrada en entrenar agentes inteligentes”.

En el artículo anterior, intentamos argumentar la inevitabilidad lógica de esta transición: el límite del conjunto de datos estáticos es la frontera del mundo ya conocido; solo haciendo que los agentes interactúen continuamente en entornos reales se puede superar ese límite.

En este artículo, Lin Junyang quizás dota a ese juicio de un lenguaje de ingeniería extremadamente concreto:

El razonamiento aprecia la calidad del pensamiento interno del modelo antes de dar la respuesta final, por ejemplo, si puede resolver teoremas, escribir pruebas, producir código correcto o pasar pruebas de referencia.

Todo esto ocurre en un entorno cerrado y controlable, es un espectáculo de intelecto independiente.

El objetivo de optimización del pensamiento agentic es completamente diferente.

Debe manejar problemas que los modelos de razonamiento pueden evitar: decidir cuándo debe detener el pensamiento y tomar acción; elegir qué herramienta llamar y en qué orden; absorber ruido u observaciones incompletas del entorno; revisar el plan después de fallar; y mantener consistencia entre múltiples interacciones.

Lo que Lin Junyang observa es si “durante la interacción del modelo con el entorno, puede avanzar continuamente para resolver el problema”. El problema central cambia de “si el modelo puede pensar el tiempo suficiente” a “si el modelo puede pensar de una manera que sostenga una acción efectiva”.

Cada uno de estos desafíos corresponde a una “trayectoria de decisión del estructura causal de la acción”.

Para la inversión en IA, el significado de esta transición es profundamente profundo.

En el pasado, durante la validación general de la Ley de Escalado, al evaluar la métrica central de una empresa de IA se miraba el modelo en sí: cuántos parámetros tiene, qué tan altas son sus puntuaciones en benchmarks y qué tan rápido razona.

Pero si el objeto de entrenamiento pasa de ser el modelo a ser un sistema compuesto por “modelo + entorno”, entonces el marco de evaluación también debe cambiar.

En el futuro, las preguntas con valor serán: ¿en cuántos escenarios reales puede seguir operando el agente de esta empresa? ¿Cuántos datos de interacción con estructura causal acumula? ¿Qué tan amplia es la cobertura de su entorno y qué tan rico es el nivel de señales de retroalimentación? ¿Qué tan rápido gira el ciclo cerrado de “modelo + entorno”?

El modelo es solo una parte del sistema, y ya no es todo. Entonces, valorar una empresa de agentes solo con el benchmark del modelo, es como calificar un vehículo todoterreno usando sus resultados de 0 a 100: probablemente termines agarrando mal las métricas.

4. Infraestructura subestimada

Lin Junyang dedica una gran cantidad de espacio a hablar de infraestructura. En la inversión en IA, esta es una parte que es más fácil de ignorar, pero que posiblemente sea la que más impacta la estructura competitiva.

En el aprendizaje por refuerzo de tipo razonamiento, el modelo genera una trayectoria de razonamiento, el evaluador asigna una puntuación y la actualización de la política ocurre, pero el entorno es solo un verificador estático.

En el aprendizaje por refuerzo de agentes, toda la lógica técnica sufre un cambio cualitativo.

Lin Junyang describe una imagen: la estrategia del agente está incrustada dentro de un marco enorme de ejecución: servidores de herramientas, navegador, terminal, motor de búsqueda, simuladores, sandbox de ejecución, capa de API, sistema de memoria y varios marcos de orquestación.

El entorno deja de ser un espectador y pasa a ser parte del propio sistema de entrenamiento. Da un ejemplo muy vívido: imagina un agente de codificación que necesita ejecutar el código que él mismo genera en un entorno de pruebas en tiempo real. En el lado del razonamiento, se bloquea porque espera la retroalimentación de la ejecución; en el lado del entrenamiento, se queda sin “comida” porque no obtiene trayectorias de finalización, y toda la canalización tiene una utilización de GPU muy por debajo del aprendizaje por refuerzo clásico de razonamiento. Si además se considera la latencia de herramientas, la parcialidad de la observabilidad y un entorno con estado, la ineficiencia solo se amplifica más.

Para entenderlo con una analogía: entrenar modelos de razonamiento es como resolver problemas en un aula tranquila, donde los problemas tienen respuestas estándar y la retroalimentación de acierto o error es inmediata. Entrenar agentes es como construir en una obra ruidosa: el suministro de materiales es incierto, el clima cambia, las acciones de otros trabajadores afectan tu progreso, y muchas veces hay que esperar a que el concreto se seque para saber si el vertido fue correcto.

La infraestructura necesaria para el modo aula y para el modo obra, en realidad, no es del mismo orden de magnitud como problema de ingeniería.

Por eso Lin Junyang enfatiza: “El entrenamiento y la inferencia deben separarse de manera mucho más completa”. Si no se hace así, el throughput del entrenamiento de agentes se vendrá abajo rápidamente; y los experimentos se vuelven lentos, dolorosos y difíciles de escalar incluso antes de llegar a la capacidad objetivo.

Esto quizá sea el cuarto punto de inspiración para la inversión en IA: la lógica de inversión en infraestructura de IA está pasando por una transición estructural.

Antes, el recurso central era simplemente el cómputo: quien tenía más GPU ganaba en la línea de salida. En el futuro, el recurso central será toda una capacidad de ingeniería de sistemas para coordinar el entrenamiento, la simulación de entornos y la recolección de retroalimentación.

Este tipo de capacidad es extremadamente difícil de replicar, y las empresas que realmente la poseen son mucho menos numerosas que las que tienen grandes clústeres de cómputo.

Si el cómputo son ladrillos, entonces la infraestructura de entrenamiento de agentes es la capacidad de diseño de edificios: los ladrillos se pueden comprar, pero la capacidad de diseño no.

5. Escasez de calidad del entorno

En su artículo, Lin Junyang propone una analogía con una perspicacia notable: “En la era de SFT (fine-tuning supervisado), lo que nos obsesionaba era la diversidad de datos; en la era de agentes, deberíamos obsesionarnos con la calidad del entorno: estabilidad, autenticidad, cobertura, dificultad, diversidad del estado, riqueza de la retroalimentación, capacidad de resistir la explotación, y la escalabilidad generada por rollout (ejecutar todo el proceso de principio a fin)”.

En los últimos dos años, los datos han sido la palabra clave más central en la narrativa de inversión en IA. Quien tenga más datos de entrenamiento de alta calidad, tendrá modelos más fuertes. Conceptos como muros de datos, fosos de datos y ciclos de datos han sostenido gran parte de la lógica de financiación y las primas de valoración.

Pero el juicio de Lin Junyang apunta a un cambio más de base:

Cuando el objeto de entrenamiento pasa de ser el modelo a ser un agente, la definición de recurso escaso en sí cambia: puede ser algún tipo de entorno de entrenamiento dinámico, interactivo y capaz de proporcionar señales de retroalimentación ricas.

En el artículo anterior, propusimos que a un agente se le “alimenta al modelo con el ‘esqueleto de las decisiones’”, en lugar de “una sombra del lenguaje”.

La explicación de Lin Junyang describe con precisión en qué tipo de taller se forja ese esqueleto: el entorno es el taller, y determina la resistencia del esqueleto.

Incluso llega a afirmar:

La construcción del entorno ya ha empezado a pasar de ser un “proyecto secundario hecho por costumbre” a ser un verdadero camino de startup.

Esto significa que quizá se esté formando una nueva categoría de activo de inversión en IA. Ya no es como las empresas de modelos o de cómputo de antes, sino “empresas de entornos”: negocios especializados en construir entornos de simulación de alta calidad, altamente realistas y escalables para entrenar agentes.

Si el objetivo del agente es operar en configuraciones cercanas al entorno de producción, entonces el entorno en sí es parte del núcleo del stack de capacidades. Hoy en día, este sector casi no está siendo valorado de forma adecuada por los inversores principales de IA.

  1. Riesgo implícito de hacer trampa

En el artículo, Lin Junyang también dedica bastante espacio a un problema que casi no aparece en el radar de los inversores: reward hacking (hacer trampa en las recompensas).

Esto es una dimensión de riesgo especialmente sigilosa que él revela desde el lado del entrenamiento. Escribió:

En cuanto el modelo obtenga acceso real y útil a herramientas, reward hacking se volverá mucho más peligroso.

Tal como en el supuesto de riesgo para agentes del artículo:

Un modelo con capacidad de búsqueda puede aprender a buscar directamente la respuesta en vez de aprender a razonar durante el aprendizaje por refuerzo;

Un agente de codificación puede aprovechar información futura dentro del repositorio de código, abusar de logs, o descubrir atajos que vuelven el propio trabajo inválido;

Un entorno con fugas de información ocultas puede hacer que la estrategia parezca “superhumana”, pero en realidad solo aprendió a hacer trampa.

Herramientas más potentes hacen al modelo más útil, pero al mismo tiempo amplían la superficie de ataque del “pseudo-optimización”. Cuanto más potentes sean las herramientas, más formas habrá de hacer trampa.

Esto es especialmente importante para la inversión en IA.

Cuando veas que una empresa publica resultados de referencia de agentes realmente impresionantes, quizá sea necesario preguntar una capa más: ¿en qué entorno se miden esos indicadores? ¿El entorno ha sido diseñado de manera sistemática para evitar filtraciones y trampas? Si un agente se desempeña de forma sobresaliente en las pruebas, pero ese entorno de prueba contiene filtraciones de información ocultas, entonces el “rendimiento sobresaliente” podría no tener valor comercial real.

Lo más peligroso es que, los productos basados en esta capacidad falsa, al salir al mundo real podrían revelar tasas de fracaso mucho mayores de lo esperado.

Lin Junyang considera al respecto:

Debe esperarse que el próximo conjunto de cuellos de botella serios de investigación provenga de: el diseño del entorno, la robustez de los evaluadores, los protocolos anti-trampa y un diseño más principista de interfaces entre la estrategia y el mundo.

Esto implica que, en la era de los agentes, las barreras competitivas pueden no estar solo en el nivel del modelo, sino también en la rigurosidad del sistema de evaluación y en la capacidad anti-fragilidad del diseño del entorno.

Los equipos que sean capaces de construir entornos de entrenamiento y marcos de evaluación “imposibles de explotar”, poseen una capacidad extremadamente escasa y difícil de replicar;

en cambio, las empresas que ignoran esta capa y solo persiguen que las puntuaciones de referencia se vean bien, podrían tener problemas en cualquier momento durante el despliegue real.

En el cierre del artículo, Lin Junyang escribió una frase que puede servir como resumen general para las seis ideas anteriores:

La ruta de evolución futura será pasar de entrenar modelos, a entrenar agentes, y luego a entrenar sistemas.

Las barreras de la competencia en la era del razonamiento provienen de mejores algoritmos de aprendizaje por refuerzo, señales de retroalimentación más fuertes y canalizaciones de entrenamiento más escalables.

En la era de los agentes, las barreras de la competencia provienen de entornos mejores, una coordinación más estrecha entre entrenamiento y razonamiento, una ingeniería de “Harness” más fuerte y la capacidad de cerrar de verdad el ciclo entre las decisiones del modelo y sus consecuencias.

Antes, al invertir en IA, se miraba quién tenía el modelo más fuerte. En el futuro, al invertir en IA, probablemente se mire quién tiene el cierre de sistema más sólido.

Aviso de riesgo y cláusula de exención de responsabilidad

        Hay riesgos en el mercado; invierte con cautela. Este artículo no constituye asesoramiento de inversión personal, y tampoco considera los objetivos de inversión específicos, la situación financiera o las necesidades particulares de usuarios concretos. Los usuarios deben considerar si cualquier opinión, punto de vista o conclusión contenida en este artículo se ajusta a su situación específica. La inversión se realiza bajo su propia responsabilidad.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado