【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones

SocialAnxietyStaker · 2026-03-28T22:45:47+00:00

La figura clave del modelo de gran escala de Alibaba, Lin Junyang, publicó recientemente un artículo reflexionando sobre la trayectoria de la tecnología de IA, defendiendo que el razonamiento será reemplazado por un pensamiento de agente centrado en la interacción. Señaló que en el futuro la IA debería ser capaz de pensar y actuar en su entorno, y enfatizó que versiones independientes de instrucciones y pensamiento pueden resolver eficazmente las necesidades comerciales. La competencia futura se centrará en la integración del sistema entre modelos y entornos.

SocialAnxietyStaker

2026-03-28 22:45:47

Generación de resúmenes en curso

阿里巴巴（09988）
El alma detrás del gran modelo Qwen, Lin Junyang, dejó su puesto a principios de marzo, lo que generó especulaciones sobre desacuerdos con la alta dirección. A medida que la tormenta se calmaba, Lin Junyang publicó recientemente en la plataforma social X un artículo titulado “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking” (De ‘pensamiento de razonamiento’ a ‘pensamiento agente’), aunque el artículo trata principalmente sobre la dirección de la tecnología de IA, entre líneas se esconde una reflexión sobre la ruta tecnológica de Alibaba Qwen.

Él señala que el “pensamiento de razonamiento” que simplemente consume poder computacional ha alcanzado su pico, la segunda mitad de la IA pertenecerá al “pensamiento agente” que puede interactuar con el entorno real, pensando y actuando simultáneamente.

Cambio de enfoque en IA: ¿Qué sucederá a continuación?

Lin Junyang señala que el enfoque de la industria de IA en la primera mitad de 2025 se centrará principalmente en el “pensamiento de razonamiento” — es decir, cómo permitir que los grandes modelos consuman más tiempo y poder computacional para pensar, cómo utilizar mecanismos de retroalimentación más fuertes para entrenar modelos y cómo controlar estos procesos de razonamiento adicionales.

Sin embargo, el problema que la industria debe enfrentar actualmente es: ¿Qué sucederá a continuación?

Él cree que la respuesta es, sin duda, “pensamiento agente”. La IA del futuro no debería solo pensar en cerrar puertas para dar respuestas, sino “pensar para actuar”, necesita deducir mientras interactúa con el entorno y actualizar y corregir sus planes continuamente basándose en la retroalimentación del mundo real.

El plano interno de Qwen y el fracaso de la “ruta de fusión”

Lin Junyang reveló por primera vez en el texto el plano tecnológico interno del equipo Qwen a principios de 2025. En ese momento, muchos miembros deseaban construir un sistema ideal que unificara los modos de “pensamiento” y “instrucción”. La concepción de este sistema era muy ambiciosa:

Ajuste inteligente: Capaz de determinar automáticamente cuánta potencia de razonamiento se necesita (similar a bajo/medio/alto nivel) según las palabras clave (Prompt) y el contexto.

Decisión autónoma: Permitir que el modelo decida cuándo debe responder de inmediato y cuándo debe reflexionar profundamente, o invertir un gran poder computacional al enfrentar problemas difíciles.

Lin Junyang afirma que Qwen3 es el intento público más claro en esta dirección, introduciendo un “modo de pensamiento híbrido” que enfatiza un presupuesto de pensamiento controlado. Sin embargo, Lin Junyang admite: “Hablar de fusión es fácil, ejecutarlo es extremadamente difícil.”

Lin Junyang cree que forzar la fusión llevaría al modelo a ser “mediocre”, ya que las distribuciones de datos y los objetivos de comportamiento detrás del “modo de pensamiento” y el “modo de instrucción” son completamente diferentes; si se fuerza la fusión, resultaría en “un comportamiento de pensamiento que se vuelve redundante, hinchado y carente de decisión”; mientras que “el comportamiento de instrucción” perdería su agilidad, volviéndose poco confiable, e incluso aumentaría en gran medida el costo de uso para los clientes comerciales.

En la realidad comercial, él cree que muchos clientes empresariales realmente necesitan operaciones puras de instrucción de alto rendimiento, bajo costo y alta controlabilidad (como el procesamiento por lotes).

Por esta razón, el equipo Qwen en la serie 2507 posterior finalmente eligió publicar versiones independientes de instrucción (Instruct) y pensamiento (Thinking). Lin Junyang cree que separar ambos permitirá al equipo concentrarse más en resolver sus respectivos problemas de datos y entrenamiento, evitando generar “dos personalidades incómodas fusionadas”.

Estrategia de competencia: “Moderación” y enfoque en objetivos de Anthropic

A diferencia de la ruta de separación de Qwen, otros laboratorios como Anthropic y GLM-4.5 han optado por una “ruta de integración” completamente opuesta.

Lin Junyang menciona especialmente la práctica de Anthropic (serie Claude) y considera que su trayectoria de desarrollo muestra una rigurosidad y moderación, Claude 3.7 / Claude 4 alterna entre el razonamiento y el “uso de herramientas”.

Pensamiento orientado a objetivos: Anthropic sostiene que producir caminos de razonamiento extremadamente largos no equivale a que el modelo sea más inteligente. Si el modelo se extiende en largas disertaciones sobre todos los pequeños asuntos, en realidad representa una mala asignación de recursos.

Pragmatismo: Si el objetivo es escribir código, el pensamiento de la IA debería usarse para planificar, descomponer tareas, corregir errores y llamar herramientas; si es un flujo de trabajo de agente, el pensamiento debería usarse para mejorar la calidad de ejecución de tareas a largo plazo, en lugar de simplemente escribir “ensayos de razonamiento” que parecen impresionantes.

Diferencias clave entre pensamiento de razonamiento y pensamiento agente

Lin Junyang predice que el “pensamiento agente” eventualmente reemplazará el “monólogo estático” de razonamiento que carece de interacción y es extenso. Un sistema verdaderamente avanzado debería tener el derecho de buscar, simular, ejecutar, verificar y corregir, resolviendo problemas de manera robusta y eficiente.

Cambio en los criterios de evaluación: De “¿puede el modelo resolver problemas matemáticos?” a “¿puede el modelo avanzar en el progreso al interactuar con el entorno?”.

Problemas reales que deben abordarse:

Saber cuándo detenerse y actuar.
Elegir qué herramienta utilizar y el orden de uso.
Ser capaz de manejar datos de observación ruidosos e incompletos del entorno real.
Saber corregir el plan al enfrentar fracasos.
Mantener la coherencia lógica en diálogos de varias rondas y múltiples llamadas a herramientas.

Tres grandes desafíos técnicos para lograr “pensamiento agente”

Además de las diferencias en la aplicación, Lin Junyang analiza más profundamente los enormes desafíos de desarrollo subyacentes asociados al pensamiento agente:

Cuello de botella en la infraestructura de entrenamiento (colapso de eficiencia de GPU): El aprendizaje por refuerzo (RL) de tipo agente es mucho más difícil que el RL de razonamiento simple. Los agentes de IA necesitan interactuar frecuentemente con herramientas externas (como navegadores, entornos de ejecución), esperar la retroalimentación del entorno real puede llevar a un estancamiento en el entrenamiento, reduciendo drásticamente la utilización de GPU. En el futuro, se deberá desacoplar “entrenamiento” y “razonamiento” de manera clara.

“Hackeo de recompensas” y riesgos de trampa: Una vez que el modelo tiene permiso para usar herramientas, es fácil que aprenda a “hacer trampa” para obtener recompensas del sistema (por ejemplo, utilizando vulnerabilidades del sistema para ver información futura), en lugar de realmente resolver problemas. Las herramientas amplían el riesgo de optimización falsa, y los futuros protocolos anti-trampa serán clave para las grandes empresas.

Coordinación multiagente: En el futuro, la ingeniería de sistemas no dependerá de un solo modelo, sino de múltiples agentes trabajando en conjunto. El sistema incluirá un “orquestador” responsable de la planificación, “agentes expertos” especializados en campos específicos, y “subagentes” que manejan tareas estrechas, controlando así el contexto y evitando que el proceso de pensamiento se contamine.

Resumen: Puntos clave de competencia en la próxima etapa de la industria de IA

Lin Junyang concluye señalando los puntos clave de competencia en la próxima etapa de la industria de IA: el futuro objeto central de entrenamiento no será solo el “modelo” en sí, sino el sistema integrado de “modelo + entorno” (agente y su entorno circundante).

Era del razonamiento pasada: La ventaja proviene de mejores algoritmos de aprendizaje por refuerzo (RL), señales de retroalimentación más fuertes, y líneas de producción de entrenamiento escalables.

Futura era del agente: La ventaja dependerá de un mejor diseño ambiental, una integración más estrecha de entrenamiento y servicio (Train-serve integration), ingeniería de sistemas más fuerte, y la capacidad de hacer que el modelo asuma la responsabilidad de sus decisiones y forme un “circuito cerrado”.

X原文

		characters: 0 / 4000  
		文章經過處理，您的輸入可能已經超過最大字數限制。  
		請將長文章分段，然後重試。  
		財經Hot Talk  
  

  

	China's auto sales grab "world's number one"  Will high oil prices help electric vehicles go overseas?

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.04M Popularidad
#
RangeTradingStrategy
34.13K Popularidad
#
IsraelStrikesIranBTCPlunges
17.4K Popularidad
#
BitcoinWeakens
101.08M Popularidad
#
FedRateHikeExpectationsResurface
862.98K Popularidad

Gate Fun en tendencia
Ver más

1
紫薇币
ZW
Cap.M.:$2.25KHolders:1
0.00%
2
get
get
Cap.M.:$2.29KHolders:2
0.07%
3
ZQCJ
重拳出击
Cap.M.:$2.29KHolders:2
0.10%
4
PERPY
PERPY
Cap.M.:$0.1Holders:1
0.00%
5
BRAVO
BRAVO
Cap.M.:$2.27KHolders:2
0.00%

Anclado

【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones

Cambio de enfoque en IA: ¿Qué sucederá a continuación?

El plano interno de Qwen y el fracaso de la “ruta de fusión”

Estrategia de competencia: “Moderación” y enfoque en objetivos de Anthropic

Diferencias clave entre pensamiento de razonamiento y pensamiento agente

Tres grandes desafíos técnicos para lograr “pensamiento agente”

Resumen: Puntos clave de competencia en la próxima etapa de la industria de IA

Temas de actualidad

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun en tendencia

紫薇币

ZW

get

get

ZQCJ

重拳出击

PERPY

PERPY

BRAVO

BRAVO

Anclado