Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones
阿里巴巴 (09988)
El alma detrás del gran modelo Qwen, Lin Junyang, dejó su puesto a principios de marzo, lo que generó especulaciones sobre desacuerdos con la alta dirección. A medida que la tormenta se calmaba, Lin Junyang publicó recientemente en la plataforma social X un artículo titulado “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking” (De ‘pensamiento de razonamiento’ a ‘pensamiento agente’), aunque el artículo trata principalmente sobre la dirección de la tecnología de IA, entre líneas se esconde una reflexión sobre la ruta tecnológica de Alibaba Qwen.
Él señala que el “pensamiento de razonamiento” que simplemente consume poder computacional ha alcanzado su pico, la segunda mitad de la IA pertenecerá al “pensamiento agente” que puede interactuar con el entorno real, pensando y actuando simultáneamente.
Cambio de enfoque en IA: ¿Qué sucederá a continuación?
Lin Junyang señala que el enfoque de la industria de IA en la primera mitad de 2025 se centrará principalmente en el “pensamiento de razonamiento” — es decir, cómo permitir que los grandes modelos consuman más tiempo y poder computacional para pensar, cómo utilizar mecanismos de retroalimentación más fuertes para entrenar modelos y cómo controlar estos procesos de razonamiento adicionales.
Sin embargo, el problema que la industria debe enfrentar actualmente es: ¿Qué sucederá a continuación?
Él cree que la respuesta es, sin duda, “pensamiento agente”. La IA del futuro no debería solo pensar en cerrar puertas para dar respuestas, sino “pensar para actuar”, necesita deducir mientras interactúa con el entorno y actualizar y corregir sus planes continuamente basándose en la retroalimentación del mundo real.
El plano interno de Qwen y el fracaso de la “ruta de fusión”
Lin Junyang reveló por primera vez en el texto el plano tecnológico interno del equipo Qwen a principios de 2025. En ese momento, muchos miembros deseaban construir un sistema ideal que unificara los modos de “pensamiento” y “instrucción”. La concepción de este sistema era muy ambiciosa:
Ajuste inteligente: Capaz de determinar automáticamente cuánta potencia de razonamiento se necesita (similar a bajo/medio/alto nivel) según las palabras clave (Prompt) y el contexto.
Decisión autónoma: Permitir que el modelo decida cuándo debe responder de inmediato y cuándo debe reflexionar profundamente, o invertir un gran poder computacional al enfrentar problemas difíciles.
Lin Junyang afirma que Qwen3 es el intento público más claro en esta dirección, introduciendo un “modo de pensamiento híbrido” que enfatiza un presupuesto de pensamiento controlado. Sin embargo, Lin Junyang admite: “Hablar de fusión es fácil, ejecutarlo es extremadamente difícil.”
Lin Junyang cree que forzar la fusión llevaría al modelo a ser “mediocre”, ya que las distribuciones de datos y los objetivos de comportamiento detrás del “modo de pensamiento” y el “modo de instrucción” son completamente diferentes; si se fuerza la fusión, resultaría en “un comportamiento de pensamiento que se vuelve redundante, hinchado y carente de decisión”; mientras que “el comportamiento de instrucción” perdería su agilidad, volviéndose poco confiable, e incluso aumentaría en gran medida el costo de uso para los clientes comerciales.
En la realidad comercial, él cree que muchos clientes empresariales realmente necesitan operaciones puras de instrucción de alto rendimiento, bajo costo y alta controlabilidad (como el procesamiento por lotes).
Por esta razón, el equipo Qwen en la serie 2507 posterior finalmente eligió publicar versiones independientes de instrucción (Instruct) y pensamiento (Thinking). Lin Junyang cree que separar ambos permitirá al equipo concentrarse más en resolver sus respectivos problemas de datos y entrenamiento, evitando generar “dos personalidades incómodas fusionadas”.
Estrategia de competencia: “Moderación” y enfoque en objetivos de Anthropic
A diferencia de la ruta de separación de Qwen, otros laboratorios como Anthropic y GLM-4.5 han optado por una “ruta de integración” completamente opuesta.
Lin Junyang menciona especialmente la práctica de Anthropic (serie Claude) y considera que su trayectoria de desarrollo muestra una rigurosidad y moderación, Claude 3.7 / Claude 4 alterna entre el razonamiento y el “uso de herramientas”.
Pensamiento orientado a objetivos: Anthropic sostiene que producir caminos de razonamiento extremadamente largos no equivale a que el modelo sea más inteligente. Si el modelo se extiende en largas disertaciones sobre todos los pequeños asuntos, en realidad representa una mala asignación de recursos.
Pragmatismo: Si el objetivo es escribir código, el pensamiento de la IA debería usarse para planificar, descomponer tareas, corregir errores y llamar herramientas; si es un flujo de trabajo de agente, el pensamiento debería usarse para mejorar la calidad de ejecución de tareas a largo plazo, en lugar de simplemente escribir “ensayos de razonamiento” que parecen impresionantes.
Diferencias clave entre pensamiento de razonamiento y pensamiento agente
Lin Junyang predice que el “pensamiento agente” eventualmente reemplazará el “monólogo estático” de razonamiento que carece de interacción y es extenso. Un sistema verdaderamente avanzado debería tener el derecho de buscar, simular, ejecutar, verificar y corregir, resolviendo problemas de manera robusta y eficiente.
Cambio en los criterios de evaluación: De “¿puede el modelo resolver problemas matemáticos?” a “¿puede el modelo avanzar en el progreso al interactuar con el entorno?”.
Problemas reales que deben abordarse:
Tres grandes desafíos técnicos para lograr “pensamiento agente”
Además de las diferencias en la aplicación, Lin Junyang analiza más profundamente los enormes desafíos de desarrollo subyacentes asociados al pensamiento agente:
Cuello de botella en la infraestructura de entrenamiento (colapso de eficiencia de GPU): El aprendizaje por refuerzo (RL) de tipo agente es mucho más difícil que el RL de razonamiento simple. Los agentes de IA necesitan interactuar frecuentemente con herramientas externas (como navegadores, entornos de ejecución), esperar la retroalimentación del entorno real puede llevar a un estancamiento en el entrenamiento, reduciendo drásticamente la utilización de GPU. En el futuro, se deberá desacoplar “entrenamiento” y “razonamiento” de manera clara.
“Hackeo de recompensas” y riesgos de trampa: Una vez que el modelo tiene permiso para usar herramientas, es fácil que aprenda a “hacer trampa” para obtener recompensas del sistema (por ejemplo, utilizando vulnerabilidades del sistema para ver información futura), en lugar de realmente resolver problemas. Las herramientas amplían el riesgo de optimización falsa, y los futuros protocolos anti-trampa serán clave para las grandes empresas.
Coordinación multiagente: En el futuro, la ingeniería de sistemas no dependerá de un solo modelo, sino de múltiples agentes trabajando en conjunto. El sistema incluirá un “orquestador” responsable de la planificación, “agentes expertos” especializados en campos específicos, y “subagentes” que manejan tareas estrechas, controlando así el contexto y evitando que el proceso de pensamiento se contamine.
Resumen: Puntos clave de competencia en la próxima etapa de la industria de IA
Lin Junyang concluye señalando los puntos clave de competencia en la próxima etapa de la industria de IA: el futuro objeto central de entrenamiento no será solo el “modelo” en sí, sino el sistema integrado de “modelo + entorno” (agente y su entorno circundante).
Era del razonamiento pasada: La ventaja proviene de mejores algoritmos de aprendizaje por refuerzo (RL), señales de retroalimentación más fuertes, y líneas de producción de entrenamiento escalables.
Futura era del agente: La ventaja dependerá de un mejor diseño ambiental, una integración más estrecha de entrenamiento y servicio (Train-serve integration), ingeniería de sistemas más fuerte, y la capacidad de hacer que el modelo asuma la responsabilidad de sus decisiones y forme un “circuito cerrado”.
X原文