Yang Zhilin, Zhang Peng, Luo Fuli en diálogo conjunto: Después de la fiebre de los cangrejos, ¿hacia dónde se dirige la transformación de la IA?

Question

![](https://img-cdn.gateio.im/social/moments-448f898aac-64c0e03e44-8b7abd-ceda62)**Noticias de Blue Whale, 27 de marzo (reportero: Zhu Junxi)** El 27 de marzo, en la Cumbre Anual del Foro Zhongguancun 2026, durante el Foro de Vanguardia de Código Abierto de IA, una mesa redonda sobre “OpenClaw y el código abierto de IA” atrajo especialmente la atención. El fundador de Mianxia (面之暗面), Yang Zhilin, subió al escenario como moderador; entre los invitados al diálogo se encontraban Zhang Peng, CEO de Zhipu; Xia Lixue, cofundadora y CEO de Wuwen Qiong; Luo Fuli, responsable de modelos de gran escala (large models) de Xiaomi MiMo; y Huang Chao, profesor asistente de la Universidad de Hong Kong.Los cinco invitados en el mismo escenario cubrían la capa de modelos de gran escala y la capa de infraestructura dentro de la cadena industrial de la IA. Entre ellos, tanto Mianxia como Zhipu tienen un ADN distintivo de Tsinghua. Yang Zhilin se graduó de pregrado en la Universidad de Tsinghua; Zhang Peng estudió en Tsinghua desde pregrado hasta doctorado; y Xia Lixue también proviene del Departamento de Ingeniería Electrónica de Tsinghua. Luo Fuli, en cambio, se graduó en la Universidad de Pekín; luego entró en el Instituto DAMO de Alibaba, y después se unió a DeepSeek como investigador de aprendizaje profundo, participando en el desarrollo de modelos como DeepSeek-V2.En cuanto al proyecto Agent recientemente muy popular, OpenClaw, Zhang Peng lo describió como un “andamio” (“脚手架”): sobre la base del modelo, construye un marco sólido, cómodo y flexible, para que las personas comunes también puedan utilizar de forma conveniente las capacidades de modelos de primer nivel, especialmente en lo relativo a programación y agentes.Luo Fuli considera que, desde la perspectiva de los modelos fundacionales, OpenClaw, por un lado, eleva el límite superior de la capacidad del modelo, haciendo que muchos modelos nacionales se acerquen en la mayoría de tareas al desempeño de los modelos líderes; por otro lado, mediante mecanismos como el sistema harness y el sistema skills, garantiza el límite inferior de finalización de tareas y la estabilidad. En una mirada más macro, OpenClaw también enciende un nuevo espacio imaginativo en la capa agent, más allá de los modelos de gran escala.En el auge de OpenClaw, empresas de modelos de gran escala como Mianxia y Zhipu se han convertido en beneficiarias. El umbral para desplegar OpenClaw localmente por cuenta propia es relativamente alto, y la rápida quema de tokens durante la ejecución también conlleva costos elevados. Esto ha llevado a que muchos usuarios miren hacia otra alternativa: las soluciones de “despliegue con un clic” ofrecidas por proveedores de nube y empresas de modelos en el país.El 18 de febrero, Mianxia lanzó el producto OpenClaw en forma cloud, Kimi Claw, que admite desplegar OpenClaw directamente dentro de Kimi. Empaqueta en conjunto las capacidades de agentes de OpenClaw, la infraestructura en la nube y la invocación inmediata de habilidades; además, puede aprovechar las capacidades avanzadas de búsqueda en red y captura de datos de Kimi, y configura automáticamente el modelo K2.5 Thinking.El 10 de marzo, Zhipu también puso en línea AutoClaw (澳龙), “la versión local de OpenClaw con instalación de un clic”. A mediados de este mes, Zhipu también lanzó un modelo fundacional GLM-5-Turbo optimizado en profundidad para el escenario de langosta (龙虾) de OpenClaw; desde la etapa de entrenamiento, se realiza una optimización específica para las necesidades centrales de las tareas de langosta, fortaleciendo capacidades clave como llamada de herramientas, seguimiento de instrucciones, tareas programadas y de continuidad, ejecución de cadenas largas, entre otras.Los fabricantes de teléfonos, como Xiaomi, también van siguiendo rápidamente. El 6 de marzo, el Agent móvil de Xiaomi “Xiaomi miclaw” comenzó oficialmente una prueba cerrada a pequeña escala, siendo la primera aplicación de IA de Agent tipo OpenClaw para dispositivos móviles en el país\u0026zwnj;. Este Agent se basa en el modelo de gran escala MiMo de Xiaomi; su objetivo central es desplegar las capacidades de ejecución de modelos en la capa del sistema del teléfono, y ejecutar operaciones a nivel de sistema de forma autónoma.Al final del foro, Yang Zhilin planteó una pregunta abierta: describir con una sola palabra la tendencia del desarrollo de los modelos de gran escala en los próximos 12 meses y también tus expectativas. Huang Chao bromeó diciendo que 12 meses en el campo de la IA parecen lejanísimos. Yang Zhilin respondió que la pregunta originalmente estaba planteada como “cinco años”, pero él la acortó a una escala temporal más realista.Luo Fuli señaló que, en el proceso AGI del próximo año, lo más clave será la autoevolución. Considera que, bajo los paradigmas de conversación previos, el límite superior de las capacidades de los modelos preentrenados no se ha liberado de manera suficiente; y con el desarrollo del marco Agent, dicho límite superior se está activando de forma gradual. En su opinión, el significado de la autoevolución no es reemplazar la productividad humana, sino, como un científico de primer nivel, explorar cosas que no existen en este mundo.Zhang Peng, en cambio, volvió a las consideraciones realistas y afirmó directamente que el mayor problema sigue siendo el cómputo (capacidad de cómputo). Indicó que, aunque el marco de agentes hace que mucha gente tenga muy buena creatividad y aumente la eficiencia diez veces, el requisito previo es poder utilizarlo. Con el giro de la industria hacia la fase de inferencia, la demanda presenta una explosión de diez o incluso cien veces, y hay muchas necesidades que aún no se han cubierto; hay que pensar soluciones entre todos.**A continuación, se reproduce la transcripción íntegra de la mesa redonda, con contenido ajustado por Blue Whale News manteniendo el significado original:****Yang Zhilin**Ahora, lo más popular es OpenClaw: todos lo usan en su vida diaria, o productos similares. ¿Qué es lo que consideran más imaginativo o más impactante? Desde el punto de vista técnico, ¿cómo ven la evolución de OpenClaw y los agentes relacionados hoy?**Zhang Peng**De hecho, yo empecé a jugar con OpenClaw hace mucho, aunque en aquel entonces ni siquiera se llamaba OpenClaw; lo más temprano se llamaba Clawdbot, para enredarme con estas cosas y montarlo yo mismo. Como también soy programador, jugar con estas cosas me da algunas experiencias propias. Creo que el mayor avance o el punto más novedoso que esto puede aportar a todos es que, **esto ya no es una “patente” de los programadores o de los llamados geeks: incluso la gente común puede usar de manera bastante conveniente las capacidades de estos modelos de primer nivel, especialmente esas capacidades en programación y en el ámbito de los agentes.**Así que, hasta ahora, en el intercambio con todos, **prefiero llamar al asunto de OpenClaw “andamio”**. Lo que proporciona es una clase de posibilidad: sobre la base del modelo, construir un andamio muy sólido, muy conveniente, pero también muy flexible. Todos pueden usar, según su propia voluntad, muchas cosas novedosas que ofrecen los modelos de capa inferior. Antes, algunas de mis ideas estaban limitadas porque no sabía escribir código, o no sabía esas habilidades. Pero hoy, por fin, puede completarse mediante conversaciones muy simples. Para mí, esto es un impacto enorme o, dicho de otra manera, me hace reconocer de nuevo este asunto.**Xia Lixue**En realidad, cuando usé OpenClaw al principio no me resultó tan fácil adaptarme. Porque estoy acostumbrada a ese modo de comunicación de “chatear con un modelo de gran escala”, y luego descubrí que OpenClaw parecía reaccionar muy lento. Pero después me di cuenta de un problema: que difiere mucho de los chatbots de antes. En esencia, debería ser “una persona” que puede ayudarme a completar una gran tarea. Por eso, cuando más adelante empecé a enviarle tareas más complejas, descubrí que en realidad puede hacerlo muy bien.Para mí, una de las sensaciones más profundas es que, desde que el modelo pasó de primero conversar siguiendo tokens, hasta ahora poder convertirse en un agente, en un agente de langosta, capaz de ayudarte a completar tareas. Esto ya ha elevado muchísimo el espacio imaginativo de la IA en general para nosotros. Pero al mismo tiempo, también incrementa mucho los requisitos para las capacidades del sistema entero. Por eso al principio me parecía que OpenClaw estaba un poco trabado.Así que, como una empresa en la capa de infraestructura, lo que yo veo es que Claw aporta más oportunidades y retos al gran sistema y al ecosistema de la IA detrás. Porque ahora, todos los recursos que podemos usar, para sostener un crecimiento tan rápido de esta era, no es suficiente. Por ejemplo, si lo toma uno como referencia de nuestra empresa: a finales de enero empezamos, y básicamente cada dos semanas la cantidad de tokens se duplicaba; ahora ya se ha multiplicado por diez. La última vez que vi un ritmo así fue como cuando era la era de las tarifas 3G del tráfico móvil.Así que ahora siento que el uso de tokens, a grandes rasgos, es como cuando teníamos 100 megabytes de tráfico de móvil al mes, en aquellos días. En ese contexto, en realidad necesitamos optimizar mejor todos nuestros recursos e integrarlos mejor. Hacer que cada persona, no solo en el ámbito de la IA, sino en toda la sociedad, cada persona viva y real pueda usar este OpenClaw y estas capacidades de IA. Así que, como jugador en infraestructura, estoy muy emocionada y conmovida por este momento. Además, pienso que hay mucho espacio para optimizar dentro de esto, y que aún deberíamos explorarlo y probarlo.**Luo Fuli**Yo personalmente considero que OpenClaw es un evento muy revolucionario y disruptivo como marco de agentes. Aunque sé que, en mi entorno, todas las personas que hacen coding en profundidad probablemente como primera opción todavía apuestan por Claude Code. Pero creo que solo quienes han usado OpenClaw pueden sentir de manera única este marco. Tiene muchos diseños dentro del marco Agent que son pioneros en comparación con Claude Code. Incluso, con base en muchas actualizaciones recientes de Claude Code, en realidad están acercándose a OpenClaw.Cuando yo uso OpenClaw, siento que este marco me da, para mí, una expansión de la imaginación “en cualquier momento y en cualquier lugar”. Claude Code quizá al principio solo podía extender mi creatividad en mi escritorio, pero con OpenClaw puedo extenderla en cualquier momento y en cualquier lugar.Después descubrí que el valor principal que aporta OpenClaw tiene dos aspectos. El primero es que es de código abierto. El código abierto es un beneficio enorme para que la comunidad participe de manera profunda, para que dé importancia a las mejoras, para que invierta en el asunto del marco Agent; esto es una condición previa muy importante. Considero que el gran valor de marcos de agentes como OpenClaw o Claude Code está en llevar el límite superior de los modelos en un carril que tal vez no se acerca tanto a los modelos cerrados (close-source), pero que aún están en un nivel inferior a los modelos cerrados: elevarlo de manera muy alta. En la gran mayoría de escenarios, podemos ver que el nivel de finalización de sus tareas ya está muy cerca del modelo más reciente de Claude; al mismo tiempo, garantiza muy bien el límite inferior. Porque puede apoyarse en un conjunto de sistemas harness, o en el sistema skills, y muchos otros diseños para garantizar el nivel de finalización y la precisión.Por eso creo que OpenClaw, **desde la perspectiva de un modelo base de gran escala, garantiza el límite inferior del modelo base y, al mismo tiempo, eleva su límite superior.**Además, creo que el valor que OpenClaw trae a toda la comunidad es que enciende aún más el descubrimiento de que existe esta capa fuera del modelo de gran escala, y que lo más importante es la capa de agentes: tiene muchísima imaginación y espacio para hacer cosas. Esto es lo que veo: en la comunidad reciente, hay más personas que, además de los investigadores, se están sumando a la transformación de la AGI. También hay más personas que aprovechan marcos de agentes más fuertes, harness y demás; hasta cierto punto, sustituyen su propio trabajo, liberan su tiempo y hacen cosas más imaginativas.**Yang Zhilin**Recientemente, Zhipu también publicó el modelo nuevo GLM-5-Turbo. Entiendo que esto supone, además, un gran refuerzo de las capacidades de agent. Entonces, ¿podrías presentarnos este modelo nuevo y en qué se diferencia de otros modelos? Además, también observamos una estrategia de subida de precios (pricing). ¿Qué tipo de señal de mercado refleja?**Zhang Peng**Hace un par de días, de hecho, también actualizamos con urgencia. Pero en realidad esto es una etapa dentro de nuestra propia hoja de ruta de desarrollo; lo adelantamos y lo publicamos. El objetivo principal, en esencia, es destacar el paso de “conversar de manera simple” a “hacer el trabajo”. Y lo que acabamos de escuchar de ustedes todos coincide mucho con esto: OpenClaw hace que la gente sienta que los modelos de gran escala ya no son solo para chatear; realmente pueden ayudarme a hacer el trabajo.Pero detrás de ese “hacer el trabajo”, la demanda de capacidades es muy alta. Requiere planificar tareas a largo plazo, reintentar continuamente, comprimir su contexto, depurar, etc., e incluso involucrar manejo multimodal. Por eso el requisito para la capacidad del modelo en sí es algo diferente de los modelos genéricos tradicionales orientados a la conversación. En este sentido, GLM-5-Turbo se refuerza de manera específica: por ejemplo, le pedimos que trabaje 7 por 24 horas a largo plazo, cómo mantener su loop sin detenerse; aquí se ha realizado bastante trabajo.Además, como también se mencionó, está el problema del consumo de tokens. Un modelo “inteligente” para hacer tareas complejas puede tener un consumo de tokens extremadamente grande. La mayoría de personas no puede sentirlo de manera intuitiva, pero solo ve que el dinero en su factura va bajando constantemente. En este sentido, también hicimos optimizaciones: cuando se enfrente a tareas complejas, puede completar estas cosas con una mayor eficiencia de tokens. Se optimizó principalmente en estos aspectos. Pero, en esencia, la arquitectura del modelo sigue siendo una arquitectura de modelo genérico de coordinación multi-tarea; solo que en capacidades se refuerza con una ligera inclinación hacia ciertos objetivos.Lo relacionado con subir precios también puede explicarse sin fricción. Ya no es simplemente “responde una pregunta”; detrás hay una cadena de pensamiento muy larga. Incluye que muchas tareas, al escribir código, interactúan con esa capa de infraestructura subyacente, y luego depurar y corregir errores constantemente. El consumo es enorme. Completar una tarea puede requerir entre diez y hasta cien veces más tokens que responder una pregunta simple. Por eso el precio tiene que subir el costo de manera razonable. El modelo también es más grande y el costo de inferencia aumenta en consecuencia, así que también lo devolvemos a un valor comercial normal.**Competir a largo plazo con precios bajos no beneficia el desarrollo de toda la industria.** Esta es nuestra consideración, y también nos permite mantener un ciclo cerrado saludable en la ruta de comercialización: optimizar de manera continua la capacidad de los modelos, y así brindar de manera más sostenible mejores modelos y servicios de tokens.**Yang Zhilin**Ahora existen modelos de código abierto y potencia de cómputo de inferencia, y siento que se empieza a formar un ecosistema: diversos modelos de código abierto pueden proporcionar más valor a los usuarios en diferentes tipos de potencia de cómputo de inferencia. Con las cotizaciones por tokens, quizá incluso se esté trasladando gradualmente desde la era del entrenamiento hacia la era de la inferencia. Entonces, me gustaría preguntar: desde la capa infra, ¿qué significa la era de la inferencia para Wuwen?**Xia Lixue**Porque somos una empresa de infraestructura que nació en la era de la IA. Ahora también colaboramos para kimi, para Zhipu y para MiMo, de modo que todos puedan usar de manera más eficiente nuestra “fábrica de tokens”. Por eso, siempre estamos pensando una cosa: ¿cómo serán las infraestructuras que se necesitan en la era de la AGI? ¿Cómo podemos lograrlas paso a paso en este proceso y hacerlas realidad?Ahora también tenemos preparaciones suficientes: hemos visto los problemas que se necesitan resolver en etapas distintas, a corto, mediano y largo plazo.El problema actual, aquí mismo, es el aumento explosivo general de tokens. Esto trae una mayor necesidad de optimización para la eficiencia de nuestros sistemas. Incluso el crecimiento de precios es una forma de resolver esta demanda. Desde hace tiempo, estamos construyendo y resolviendo el despliegue a través de la integración entre software y hardware. Incluimos casi todo tipo de chips de cómputo que se pueden ver; unificamos la conexión de los más de una decena de chips del país y docenas de clústeres de cómputo distintos, de modo que podamos resolver en un sistema de IA la escasez de recursos de cómputo. **Cuando los recursos son insuficientes, la mejor solución es: primero, usar todos los recursos disponibles; segundo, hacer que cada cómputo se use en la parte más necesaria, para que cada recurso aproveche al máximo su eficiencia de conversión.**Así que, en esta era, lo que debemos resolver ahora mismo es cómo construir una “fábrica de tokens” más eficiente. En esto hicimos muchas optimizaciones: permitir la adaptación óptima de diversos tipos de memoria de gráficos (VRAM) en modelos y hardware, y de diversas tecnologías; además, estamos evaluando si bajo la estructura de modelos más nueva y la estructura de hardware más nueva, podemos lograr una “reacción química” más profunda. Resolver el problema de eficiencia actual: en este punto, todavía es construir una “fábrica de tokens” estandarizada.Pero para la era de agent, pensamos que eso todavía no es suficiente. Porque, como se dijo antes, los agentes se parecen más a una persona: puedes encargarle una tarea. Yo estoy muy convencida de que gran parte de la infraestructura de la era actual del cloud computing está diseñada para servir un programa y un ingeniero humano, no para la IA. Es como si nosotros construyéramos una infraestructura con una interfaz hecha para ingenieros humanos; luego hay que envolver otra capa para conectar con agent. Esa forma limita las capacidades del agente en cuanto a su espacio para desempeñarse.Lo llamamos agentic infra: se necesita construir una “fábrica de tokens” más inteligente. Esto es lo que Wuwen Qiong está haciendo ahora. En un futuro más lejano, cuando llegue la era verdaderamente AGI, pensamos que incluso la infraestructura debería ser un agente. La propia fábrica que construimos también debería poder evolucionar e iterar de manera autónoma, formando una organización independiente. Equivale a que tenga un CEO: ese CEO es un agente, probablemente un “claw” (claw en administración) que gestiona toda la infraestructura, y según las necesidades de los clientes de IA, plantea requisitos, y itera su propia infraestructura. Solo así la IA y la IA pueden acoplarse mejor. Por eso también estamos haciendo cosas, por ejemplo, permitir que los agentes se comuniquen mejor entre sí, hacer capacidades de copia como catch to catch (captura a captura) y otras.Así que nosotros siempre estamos pensando que el desarrollo de la infraestructura y el desarrollo de la IA no debería ser un estado aislado: yo acepto una demanda y la convierto en producto; en vez de eso, debería producirse una reacción química muy rica. Esta es, para mí, la manera real de lograr lo que se llama la coordinación entre software y hardware, y lograr la coordinación entre algoritmos e infraestructura.**Yang Zhilin**Xiaomi recientemente también ha contribuido mucho a la comunidad al publicar modelos nuevos y, además, abrir algunas tecnologías detrás de ellos. Por eso quiero preguntar: al desarrollar modelos de gran escala, ¿qué ventajas únicas crees que tiene Xiaomi?**Luo Fuli**Creo que primero, dejando de lado las ventajas únicas que Xiaomi tiene al hacer modelos de gran escala, más bien quiero hablar de una ventaja de los equipos en China al hacer modelos de gran escala. Siento que este tema tiene un valor más amplio.Hace aproximadamente dos años, vi que los equipos chinos de modelos fundacionales ya estaban comenzando un muy buen avance. Ese avance es: cómo, bajo cómputo limitado, especialmente con chips en los que nvlink e interconexión de ancho de banda están restringidos, romper las limitaciones del cómputo de gama baja, y hacer innovaciones en la estructura de modelos que parecen hechas para comprometer eficiencia, como las series MoE de DeepSeek V2 y V3, etc. Pero luego también pudimos ver que, a partir de estas innovaciones, se desencadena una transformación. **Esa transformación es: cómo, bajo una cantidad limitada de cómputo, desplegar el nivel máximo de inteligencia posible.**¿Por qué siento que la innovación estructural es tan importante? Porque justo acabamos de discutir el tema OpenClaw. Si todos lo usan de manera real, descubrirán que cuanto más lo usan, más fácil y más “inteligente” se vuelve. Su premisa es tu contexto de inferencia.El contexto es un tema que hemos discutido durante mucho tiempo. Pero ahora, lo que descubres es que hay un modelo que se desempeña muy bien en long context, tiene un rendimiento muy fuerte y un costo de inferencia muy bajo. Muchos modelos no lo hacen porque no puedan, sino porque su costo es demasiado caro y su velocidad demasiado lenta. Entonces, ¿cómo puedes lograr que bajo un contexto de uno o diez millones la inferencia tenga un costo suficientemente bajo y sea lo suficientemente rápida? En ese caso, recién ahí, realmente se pueden asignar a este modelo tareas con alto valor de productividad, y quizá así podamos lograr la autoiteración del modelo en esas condiciones.**“La autoiteración del modelo” significa que puede evolucionar a sí mismo en un entorno complejo, gracias a un contexto ultra largo.** Esta evolución puede ser tanto sobre el marco Agent en sí, como sobre los parámetros del modelo. Porque creemos que long context en sí es una evolución de los parámetros. Entonces, cómo implementar una arquitectura long context eficiente, y cómo hacer que la inferencia sea long context eficiente: eso es una competencia integral.Además de lo que acababa de mencionar sobre construir una arquitectura long context efficient en preentrenamiento (un problema que explorábamos incluso hace un año), cuando se trata de lograr estabilidad y un nivel superior muy alto en tareas con distancias largas reales de long context, hoy lo que estamos viendo es que es un paradigma de postentrenamiento iterativo. Estamos pensando cómo construir algoritmos de aprendizaje más efectivos, cómo recopilar textos reales que de verdad sean dependientes en contextos de uno, diez o cien millones, y cómo combinarlo con entornos complejos para generar esas trayectorias; esto es lo que estamos viviendo en el postentrenamiento.Pero puedo ver que un asunto más a largo plazo es que, debido al rápido progreso de los modelos grandes, y al mejor respaldo del framework de agentes, podemos ver que se dispara la demanda de inferencia. Confío en que lo ocurrido este año ya ha tenido un crecimiento cercano a diez veces. ¿Podrá el crecimiento del token alcanzar 100 veces este año? Aquí entramos en otra dimensión de competencia: el cómputo, o chips de inferencia, e incluso a nivel de energía.**Yang Zhilin**Huang Chao también ha desarrollado algunos proyectos de agentes muy influyentes. Desde el punto de vista del harness o de la capa de aplicación de los agentes, ¿qué direcciones técnicas crees que son más importantes y que la gente debería prestar atención?**Huang Chao**Primero, si abstraemos la tecnología de agent, hay algunos puntos clave: por ejemplo, planning, memory y to use (uso).En cuanto a planning: siento que el problema actual sigue siendo que, para tareas por capas o contextos muy complejos, muchos modelos quizá no puedan hacer un planning muy bueno. Creo que en esencia no cuentan con ese tipo de conocimiento implícito, especialmente en muchos dominios verticales complejos. Creo que, para el futuro, el planning necesita consolidar los conocimientos existentes sobre tareas complejas dentro del modelo.Sobre skill: en esencia, también incluye en cierta medida harness. Creo que esto alivia los errores que se originan en el planning. Porque proporciona algunas skills de muy alta calidad, y de manera fundamental también guía al modelo para completar tareas relativamente difíciles.Sobre memory: lo que nos transmite es la sensación de que “siempre existe” un problema, por ejemplo, que la compresión de información no es precisa. Además, en escenarios complejos, memory puede explotar. Pienso que eso trae presión para la memory. Pero ahora, incluso en proyectos de langosta (龙虾), todos usan las formas más simples de memory, como un sistema de archivos en forma de formato. Para ver si se comparten algunos archivos para hacerlo. Siento que en el futuro la memory debería diseñarse como una estructura por capas, incluyendo cómo hacerla más general.Pienso que todo el mecanismo de memory es difícil de hacer completamente general. Por ejemplo: en escenarios de coding, deep research y en el ámbito multimedia, las modalidades de datos son muy diferentes. Cómo hacer que para estas memories se puedan hacer buenas búsquedas e índices es, en esencia, un trade-off que siempre se está resolviendo.Otra cuestión: hoy en día, como el hecho de que los agentes hace que crear agents sea mucho más fácil, puede que en el futuro no sea solo una langosta. Veo que incluso en kimi hay mecanismos como agent swarm; es decir, en el futuro cada persona podría tener un grupo de langostas. La explosión del contexto será enorme, y uno puede imaginar lo grande que será; también eso trae presión para la memory. Ahora todavía no hay un conjunto muy bueno de mecanismos para gestionar todo el contexto que trae ese grupo de agents.En cuanto a to use: creo que el problema que existe con MCP todavía existe con las skills. Por ejemplo, MCP en su momento tenía problemas de garantía de calidad y podía haber riesgos de seguridad. Ahora las skills parecen tener muchas skills, pero las skills de alta calidad son relativamente pocas; las skills de baja calidad impactan mucho el nivel de finalización de tareas del agente. Además, a veces las skills también pueden tener problemas de inyección maliciosa. Entonces, en cuanto a to use, creo que tal vez depende de toda la comunidad, para desarrollar las skills mejor, e incluso para evolucionar nuevas skills durante el proceso de ejecución.**Yang Zhilin**Las dos personas de arriba también discutieron este tema desde perspectivas diferentes. Es decir: a medida que aumenta la complejidad de las tareas, el contexto se dispara. Entonces, desde el nivel del modelo, es posible aumentar la longitud nativa del contexto; desde el nivel agent harness, como planning, memory y los harness de multi-agent, en realidad también pueden ayudarte a soportar tareas más complejas bajo la capacidad de un modelo específico. Siento que en el futuro estos dos enfoques generarán más reacciones químicas y ayudarán a aumentar la dificultad que se puede superar en la tarea.Por último, hagamos una perspectiva abierta: así que quiero pedirles que usen una palabra para describir la tendencia del desarrollo de los modelos de gran escala en los próximos 12 meses y también sus expectativas.**Huang Chao**Siento que 12 meses en IA parecen muy lejanos; ni siquiera sé cómo será después de 12 meses.**Yang Zhilin**Lo que originalmente decía era “cinco años”; yo lo cambié.**Huang Chao**Primero, desde mi lado, creo que una palabra debería ser “ecosistema”. Ahora, con estas langostas haciendo que todos estén tan activos, en el futuro los agentes realmente deben pasar de ser asistentes personales, de los cuales “especialmente” sería un cambio a “trabajadores de oficina”/gente que trabaja por encargo. Siento que eso sigue siendo muy importante. Porque ahora quizá muchas veces la gente juega con langostas por novedad, porque es divertido. Pero creo que en el futuro, para que realmente se asienten las langostas, deberían convertirse en una herramienta para “hacer ladrillos” o un estado de “coworker” real. Así que creo que esto necesita esfuerzo de todo el ecosistema.Incluyo que, en mi opinión, el código abierto también es muy importante. Cuando se abren todas las exploraciones técnicas relacionadas, y también se abren muchas tecnologías de los modelos, entonces hace falta que todos construyan el ecosistema en conjunto. Ya sea para la iteración de estos modelos, o para la iteración de plataformas de skills, o para todo tipo de herramientas. Siento que todo esto necesita enfocarse mejor en las langostas para crear un ecosistema mejor.A mí me parece bastante claro que, en el futuro, muchos softwares, incluso ahora que ya hay langostas, van a considerar una pregunta: ¿los softwares futuros seguirán siendo para que la gente los use?Creemos que posiblemente la mayoría de los softwares futuros no necesariamente estarán pensados para los humanos. Porque los humanos necesitan una GUI (interfaz gráfica); en cambio, se usará de forma nativa orientada a agentes. Entonces, todo el ecosistema debe hacer que los sistemas de software, los datos, y en realidad todas las tecnologías se conviertan en un modo nativo para agentes, para que el desarrollo de los agentes sea más rico.**Luo Fuli**Creo que reducir esta pregunta a un año es muy significativo. Porque para mi definición de AGI, cinco años ya se ha logrado. **Entonces, si hay que describir con una palabra lo más clave en el recorrido de la AGI durante el próximo año, yo diría que sería la autoevolución.**Aunque esa palabra es un poco de concepto “fantástico”, y sé que en el último año todos la han mencionado varias veces, yo solo recientemente he tenido una comprensión más profunda de esa palabra. O, para ser más concreto, cómo hacer esta autoevolución: tiene que haber una solución operativa más práctica.La razón aquí, efectivamente, es aprovechar modelos muy potentes. **Es que en el paradigma de chat anterior, en realidad no se había aprovechado el límite superior del modelo preentrenado. Ese límite superior ahora se ha activado mediante el framework de agentes.** Ahora que tocamos que cuando se le deja ejecutar tareas durante más tiempo, vemos que el modelo puede aprender y evolucionar por sí mismo. Un intento muy simple es: dentro del marco de agentes existente, añadirle una condición de verificación (verify) y además configurarle un loop para que el modelo no se detenga y siga iterando para optimizar este objetivo. Así podemos ver que el modelo produce mejores soluciones. Si esta autoevolución puede mantenerse de forma continua, de hecho, en China, los modelos básicos ya pueden correr durante uno o dos días.**Así que, desde mi perspectiva, creo que la autoevolución es el único lugar que puede crear algo nuevo. No reemplaza la productividad existente de las personas; en cambio, como un científico de primer nivel, explora algo que no existe en este mundo.**En realidad, hace un año yo pensaba que el progreso temporal se extendería a 3 a 5 años. Pero recientemente siento que el progreso temporal debería reducirse a los últimos 1 a 2 años: en ese caso podríamos superponer sobre el modelo un marco de agentes de autoevolución muy fuerte, logrando al menos una aceleración exponencial para la investigación científica.Porque recientemente ya descubrí que, en el grupo, los compañeros que investigan modelos grandes tienen en realidad un workflow muy incierto y altamente creativo. Y luego descubrimos que, con la ayuda de Claude Code y modelos realmente de primer nivel, básicamente podemos acelerar nuestra eficiencia de investigación casi diez veces. Por eso tengo muchas expectativas de que este método se irradie hacia disciplinas y ámbitos más amplios; pienso que la autoevolución es extremadamente importante.**Xia Lixue**Mi palabra clave es tokens sostenibles (可持续token). Porque también vemos que, en todo el desarrollo de la IA, aún estamos en un proceso a largo plazo y continuo; y esperamos que tenga una vida útil duradera.Desde la perspectiva de infraestructura, el gran problema que vemos es que nuestros recursos son limitados al final. Como una fábrica de tokens, si podemos brindar tokens sostenibles, estables y a gran escala que realmente puedan usarse para que los modelos punteros sigan sirviendo a más downstream: esto es un asunto muy importante que vemos. Por eso ahora necesitamos ampliar la perspectiva hacia el ecosistema mencionado recién. Desde lo más temprano: energía → luego a cómputo → luego a tokens → finalmente a una cadena como el PIB (GDP), para permitir una iteración económica sostenible.Incluido que no solo estamos usando los diferentes recursos de cómputo dentro del país, sino que también estamos exportando esas capacidades al exterior, integrando recursos globales. Por eso también pienso que “sostenible” es para construir la economía de tokens con características chinas. Porque en la época anterior se llamaba “made in China”. Descubrimos que podemos convertir las capacidades de fabricación de bajo costo de China en buenos productos para exportarlos al mundo. Lo que queremos hacer ahora es un poco como “AI made in China”: queremos convertir de manera sostenible, a través de fábricas de tokens, nuestras ventajas en energía en tokens de alta calidad para exportarlos al mundo. Convertirnos en una fábrica mundial de tokens; este es el valor de la inteligencia artificial china hacia el mundo que me gustaría ver este año.**Zhang Peng**Seré breve: todos quizá están mirando hacia las estrellas, pero yo lo aterrizo. Creo que la palabra clave para el mayor problema al que nos enfrentaremos en los próximos 12 meses es la capacidad de cómputo. Porque como se dijo antes, toda esta tecnología, y el marco de agentes, permite que muchas personas tengan muy buena creatividad y una mejora de eficiencia diez veces. **Pero el requisito previo es que la gente pueda usarlo.**Si no hay capacidad de cómputo suficiente, entonces no puedes pedirle a alguien que piense durante medio día sobre un problema y no te dé una respuesta; eso no sirve. Por esas razones, incluso el progreso de nuestra investigación, y muchas cosas que queremos hacer, en realidad quedan bloqueadas.Recuerdo que hace un par de años, el académico Yuan (亚勤院士) seguramente también habló en el Foro Zhongguancun, diciendo una frase: “Sin ataduras no hay sentimiento; hablar de cómputo lastima los sentimientos”. Yo siento que hoy llegamos a ese punto otra vez, pero la situación es diferente. Quizá llegamos a esta fase: la fase de inferencia. Se cambia hacia inferencia porque la demanda realmente está explotando, una explosión de diez veces o cien veces. **Y como dijiste antes, la demanda era realmente 100 veces, ¿y entonces qué pasa con la gran cantidad de demanda que no se ha satisfecho?** Tenemos que pensar entre todos qué hacer.     (Editor: Wang Zhiqiang HF013)  		          【Aviso legal】Este artículo solo representa las opiniones personales del autor y no tiene relación con Hexun. El sitio de Hexun se mantiene neutral con respecto a las declaraciones y juicios expresados en el texto, y no ofrece ninguna garantía expresa o implícita sobre la exactitud, la confiabilidad o la integridad de lo que contiene. Los lectores deben usarlo solo como referencia y asumir toda la responsabilidad por sí mismos. Correo electrónico: news_center@staff.hexun.com

Yang Zhilin, Zhang Peng, Luo Fuli en diálogo conjunto: Después de la fiebre de los cangrejos, ¿hacia dónde se dirige la transformación de la IA?

Temas de actualidad

WinGoldBarsWithGrowthPoints

CryptoMarketPullback

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun en tendencia

BIT

BIT

6414

梦想

ND

OND

Gate

Gate for AI

GTM

GT MOG

Anclado