Zhipu, Lado Sombrio da Lua, Xiaomi na mesa redonda: os grandes modelos realmente começam a "trabalhar", mas a capacidade de computação continua a ser o maior obstáculo

2026-03-29 08:41:16

Yang Zhilin preside, Luo Fuli e Zhang Peng compartilham insights valiosos, esta “reunião de lagostas” discutiu profundamente o futuro da IA.

Autor: Chen Junda

Relatório do ZhiDongxi, 27 de março. Hoje, no Fórum de Zhongguancun, CEO da Zhipu Zhang Peng, CEO da Moonshot Yang Zhilin (que atuou como moderador), chefe do grande modelo MiMo da Xiaomi Luo Fuli, CEO da Wuwen Xincong Xia Lixue e Professor Assistente da HKU Huang Chao participaram juntos num palco raro para um diálogo aprofundado sobre a direção futura dos grandes modelos de código aberto e agentes inteligentes.

Este diálogo começou com o tema mais quente, OpenClaw, com todos os painelistas concordando que os agentes inteligentes fizeram os grandes modelos realmente “começarem a trabalhar”. OpenClaw pode expandir os limites de capacidade dos grandes modelos, mas também impõe requisitos mais elevados aos modelos. A Zhipu está pesquisando capacidades de planejamento de longo prazo e auto-debugging, enquanto a equipe de Luo Fuli foca mais na redução de custos e aumento de velocidade através de inovações arquitetónicas, e até na auto-evolução do modelo.

A infraestrutura também precisa acompanhar o ritmo dos agentes inteligentes. Xia Lixue acredita que os sistemas de computação atuais e a arquitetura de software são feitos para humanos, não para agentes inteligentes, e essencialmente as capacidades operacionais humanas limitam o desempenho do Agent. Portanto, precisamos construir uma Infraestrutura Agentic.

Na visão de vários painelistas, o código aberto é uma das forças motrizes principais para o desenvolvimento de grandes modelos e agentes inteligentes. Huang Chao, da HKU, acredita que a prosperidade do ecossistema open-source é a chave para que os agentes evoluam de “brincar” para se tornarem “trabalhadores de verdade”. Somente por meio de co-criação comunitária é possível transformar totalmente o software, os dados e a tecnologia em formas nativas de agentes, criando por fim um ecossistema global de IA sustentável.

Além disso, os painelistas também discutiram temas como aumento de preços de grandes modelos, explosão no uso de tokens e palavras-chave para os próximos 12 meses de desenvolvimento de IA. A seguir, os principais pontos desta mesa-redonda:

Zhang Peng: À medida que os modelos aumentam de tamanho, o custo de inferência também sobe proporcionalmente. Recentemente, a estratégia de aumento de preços da Zhipu representa uma volta ao valor comercial normal. Competir a preços baixos a longo prazo não favorece o desenvolvimento do setor.
Zhang Peng: A explosão de tecnologias como agentes inteligentes elevou o uso de tokens por 10 vezes, mas a demanda real pode ter crescido 100 vezes, com muitas necessidades ainda não atendidas. Portanto, a capacidade computacional continua sendo a questão-chave para os próximos 12 meses.
Luo Fuli: Do ponto de vista dos fornecedores de modelos base, o OpenClaw garante o limite inferior dos grandes modelos de base e eleva o limite superior. Modelos open-source domésticos combinados com OpenClaw estão muito próximos do Claude em termos de desempenho de tarefas.
Luo Fuli: DeepSeek trouxe coragem e confiança às equipes nacionais de grandes modelos. Algumas inovações na estrutura de modelos, que parecem ser “por compromisso com eficiência”, provocaram mudanças reais, permitindo que a indústria atinja o mais alto nível de inteligência com uma capacidade computacional fixa.
Luo Fuli: O aspecto mais importante na jornada de AGI no próximo ano é a “auto-evolução”. A auto-evolução permite que grandes modelos explorem como cientistas de ponta, sendo o único lugar que pode “criar coisas novas”. A Xiaomi aumentou a eficiência de pesquisa em 10 vezes usando Claude Code e modelos de ponta.
Xia Lixue: Quando a era do AGI chegar, a infraestrutura deve ser composta por agentes autônomos, gerenciando ela mesma toda a infraestrutura, iterando-a de acordo com as necessidades dos clientes de IA, alcançando auto-evolução e auto-iteração.
Xia Lixue: OpenClaw desencadeou uma explosão no uso de tokens. A velocidade de consumo de tokens atualmente é como na época do 3G, quando os dados móveis estavam começando, com uma cota de apenas 100MB por mês.
Huang Chao: No futuro, muitos softwares não serão mais feitos para humanos. Software, dados e tecnologia se tornarão formas nativas de agentes. No futuro, os humanos provavelmente só precisarão usar GUIs que os façam felizes.

A seguir, a transcrição completa desta mesa-redonda:

01. OpenClaw é uma “andaime”, o consumo de tokens de grandes modelos ainda está na era do 3G

Yang Zhilin: É uma honra convidar todos os ilustres convidados hoje. Vocês vêm do nível de modelos, do nível de capacidade de computação e do nível de agentes. A palavra-chave principal de hoje é código aberto, e também há agentes.

A primeira questão é sobre o OpenClaw, que está na moda agora. Vocês usam OpenClaw ou produtos similares no dia a dia? Quais aspectos acham mais imaginativos ou impressionantes? Do ponto de vista técnico, como veem a evolução do OpenClaw e dos agentes relacionados hoje?

Zhang Peng: Comecei a brincar com OpenClaw bem cedo, quando ainda se chamava Clawbot. Tive minhas próprias experiências, afinal, sou programador de formação, então tenho uma certa vivência com essas coisas.

A maior inovação ou novidade que o OpenClaw traz é que não é mais uma exclusividade de programadores ou geeks. Pessoas comuns podem usar facilmente as capacidades dos modelos de ponta, especialmente em programação e agentes inteligentes.

Por isso, até agora, na minha troca com todos, prefiro chamar o OpenClaw de “andaime”. Ele oferece uma possibilidade, construindo uma estrutura sólida, conveniente e flexível sobre os modelos. Cada um pode usar muitas funções novas fornecidas pelos modelos subjacentes de acordo com sua vontade.

Originalmente, suas ideias podiam ser limitadas por não saber programar ou por não dominar outras habilidades. Com o OpenClaw, finalmente, é possível realizar tudo com uma comunicação bem simples.

O OpenClaw me trouxe um impacto enorme, ou seja, me fez reentender essa questão.

Xia Lixue: Na verdade, quando comecei a usar o OpenClaw, não me adaptava muito, porque estou acostumado a conversar com grandes modelos. Depois de usar, percebi que o OpenClaw responde bem devagar.

Mas depois percebi uma grande diferença em relação aos chatbots anteriores: ele é, essencialmente, um “pessoa” que pode me ajudar a realizar tarefas grandes. Comecei a passar tarefas mais complexas para ele e percebi que ele consegue fazer muito bem.

Isso me tocou bastante. Os modelos evoluíram de conversar por tokens para se tornarem um “agente”, uma lagosta, capaz de ajudar a completar tarefas. Isso amplia muito o espaço de imaginação geral para IA.

Ao mesmo tempo, isso exige capacidades muito altas do sistema como um todo. Por isso, quando comecei a usar o OpenClaw, achei que ele era um pouco lento. Como fornecedor de infraestrutura, vejo que o OpenClaw traz mais oportunidades e desafios para os grandes sistemas e ecossistemas por trás da IA.

Todos os recursos que temos agora não são suficientes para sustentar essa era de crescimento rápido. Por exemplo, na minha empresa, desde o final de janeiro, o uso de tokens basicamente dobra a cada duas semanas, e agora aumentou cerca de 10 vezes.

A última vez que vi uma velocidade assim foi na época do consumo de dados em celulares 3G. Tenho a sensação de que o uso de tokens hoje é como naquela época, quando cada mês só tinha 100MB de dados móveis.

Nesse cenário, todos os nossos recursos precisam ser melhor otimizados e integrados. Para que não só os profissionais de IA, mas toda a sociedade possa usar as capacidades de IA do OpenClaw.

Como um player de infraestrutura, estou muito empolgado e tocado por essa era. Acredito que há muito espaço para otimizações que ainda devemos explorar e tentar.

02. OpenClaw eleva o limite dos modelos domésticos, significado revolucionário na mudança de modo de interação

Luo Fuli: Vejo o OpenClaw como uma evolução revolucionária e disruptiva no framework de agentes.

Na verdade, todas as pessoas que conheço que fazem codificação profunda preferem Claude Code. Mas acredito que quem usa OpenClaw perceberá que muitas de suas ideias de framework de agentes estão à frente do Claude Code. Na verdade, muitas atualizações recentes do Claude Code estão se aproximando do OpenClaw.

Minha experiência com OpenClaw é que esse framework me traz uma expansão de imaginação a qualquer momento. O Claude Code inicialmente só expandia minha criatividade na minha área de trabalho, mas o OpenClaw pode expandir minha criatividade em qualquer lugar.

O valor principal do OpenClaw tem duas partes. Primeiro, é de código aberto. Isso favorece a participação profunda da comunidade e a valorização e promoção da evolução do framework, o que é uma condição prévia muito importante.

Para frameworks de IA como o OpenClaw, acho que um grande valor é que ele eleva o limite superior dos modelos domésticos, que estão próximos em nível de modelos fechados, mas ainda não totalmente alcançados.

Na maioria dos cenários, você verá que o desempenho (modelo doméstico open-source + OpenClaw) já está muito próximo do modelo mais recente do Claude. Ao mesmo tempo, garante bem o limite inferior—por meio de um sistema Harness ou usando seu ecossistema Skills e outros recursos, assegurando a integridade e precisão das tarefas.

Resumindo, do ponto de vista de desenvolvedor de modelos base, o OpenClaw garante o limite inferior dos grandes modelos de base e eleva o limite superior.

Além disso, acho que ele traz outro valor para toda a comunidade: ele acende a percepção de todos, fazendo-os perceber que além dos grandes modelos, a camada de agentes realmente guarda um espaço de imaginação enorme.

Recentemente, também percebi que, na comunidade, além de pesquisadores, cada vez mais pessoas estão participando da transformação de AGI, usando frameworks de agentes mais poderosos como Harness e Scaffold. Essas pessoas, de certa forma, estão usando essas ferramentas para substituir parte do seu trabalho, ao mesmo tempo em que liberam seu tempo para se dedicar a coisas mais imaginativas.

Huang Chao: Acho que, primeiro, do ponto de vista do modo de interação, o motivo pelo qual o OpenClaw ficou popular é provavelmente porque oferece uma experiência mais “realista”. Fazemos agentes há um ou dois anos, mas antes, agentes como Cursor e Claude Code davam mais uma sensação de “ferramenta”. O OpenClaw, pela primeira vez, por meio de uma abordagem de “incorporação em software de mensagens instantâneas”, dá uma sensação mais próxima do que imaginamos de um “Jarvis pessoal”. Acho que isso é uma inovação no modo de interação.

Outro ponto é a inspiração que traz à comunidade: frameworks simples, mas eficientes, como o Agent Loop, foram novamente comprovados como viáveis. Ao mesmo tempo, nos faz repensar uma questão: realmente precisamos de um superagente onipotente, que faça tudo, ou precisamos de um “pequeno mordomo” melhor, como um sistema operacional leve ou uma estrutura de suporte?

A abordagem do OpenClaw é que, por meio de um “sistema pequeno” ou “sistema operacional de lagosta” e seu ecossistema, as pessoas podem realmente ter a mentalidade de “brincar”, impulsionando todas as ferramentas do ecossistema.

Com o surgimento de habilidades como Skills e Harness, cada vez mais pessoas podem projetar aplicações voltadas para sistemas como o OpenClaw, capacitando diversos setores. Acho que isso se integra muito bem ao ecossistema open-source. Na minha visão, esses dois pontos são as maiores inspirações que obtivemos.

03. Novo modelo GLM feito para “trabalhar”, aumento de preço é retorno ao valor comercial normal

Yang Zhilin: Gostaria de perguntar ao Zhang Peng. Recentemente, vimos a Zhipu lançar um novo modelo GLM-5 Turbo, que entendo ter aprimorado muito as capacidades de Agent. Pode nos apresentar esse novo modelo e como ele difere de outros modelos? Além disso, notamos uma estratégia de aumento de preços. Que sinais de mercado isso reflete?**

Zhang Peng: Essa é uma ótima pergunta. Há alguns dias, atualizamos rapidamente o modelo, que é uma fase do nosso roteiro de desenvolvimento; apenas o lançamos antes do previsto.

O principal objetivo é passar de um “diálogo simples” para um “trabalho de verdade”—e isso é algo que todos têm percebido recentemente: os grandes modelos não são mais só para conversar, mas realmente para ajudar as pessoas a trabalhar.

Por trás de “trabalhar”, há requisitos de capacidade muito altos. Os modelos precisam fazer planejamento de tarefas de longo prazo, tentar e errar continuamente, comprimir o contexto, fazer debugging, e possivelmente lidar com informações multimodais. Portanto, suas exigências de capacidade são diferentes dos modelos tradicionais de conversação geral. O GLM-5 Turbo foi especialmente reforçado nessas áreas, especialmente na questão de fazê-lo trabalhar, rodar por 72 horas, como garantir que ele possa fazer loops contínuos. Trabalhamos bastante nisso.

Além disso, há preocupação com o consumo de tokens. Fazer um modelo inteligente realizar tarefas complexas consome uma quantidade enorme de tokens. Pessoas comuns podem não perceber profundamente, mas ao ver a conta, perceberão que o dinheiro desaparece muito rápido. Por isso, também otimizamos essa parte, para que o modelo possa realizar tarefas complexas de forma mais eficiente em termos de tokens. No geral, a arquitetura do modelo continua sendo uma arquitetura geral de múltiplas tarefas colaborativas, apenas com reforços direcionados.

A questão do aumento de preço também é fácil de explicar. Como já disse, não se trata mais de fazer uma pergunta e receber uma resposta simples—a cadeia de raciocínio por trás é muito longa. Muitas tarefas envolvem escrever código e lidar com infraestrutura de base, além de debug e correção de erros, consumindo uma quantidade enorme. Completar uma tarefa complexa pode usar tokens dez ou até cem vezes mais do que responder a uma pergunta simples.

Por isso, é necessário um ajuste de preço adequado, e o modelo também ficou maior, com custos de inferência aumentando proporcionalmente. Estamos retornando ao valor comercial normal, porque competir a preços baixos a longo prazo não favorece o setor. Assim, podemos formar um ciclo virtuoso de comercialização, continuar otimizando as capacidades do modelo e oferecer melhores serviços a todos.

04. Construir uma fábrica de tokens mais eficiente, infraestrutura também deve ser um Agent

Yang Zhilin: Agora há cada vez mais modelos open-source, formando um ecossistema onde vários modelos podem oferecer mais valor aos usuários em diferentes plataformas de computação. Com a explosão no uso de tokens, os grandes modelos estão passando da era de treinamento para a de inferência. Gostaria de perguntar a Lixue: do ponto de vista de infraestrutura, o que a era de inferência significa para a Wuwen?**

Xia Lixue: Somos uma fornecedora de infraestrutura nascida na era da IA. Agora também apoiamos a Zhipu, Kimi, Mimo e outros, ajudando todos a usar a fábrica de tokens de forma mais eficiente. Ao mesmo tempo, colaboramos com muitas universidades e institutos de pesquisa.

Por isso, temos pensado bastante: que tipo de infraestrutura a era do AGI precisa? E como podemos realizá-la e evoluí-la passo a passo? Já estamos bem preparados para entender quais problemas precisam ser resolvidos em diferentes fases de curto, médio e longo prazo.

O problema mais imediato é o que todos discutiram: o aumento massivo no volume de tokens impulsionado pelo Open, que exige otimizações mais altas na eficiência do sistema. Ajustes de preço também são uma resposta a essa demanda.

Sempre abordamos isso por meio de integração de hardware e software. Por exemplo, conectamos quase todos os tipos de chips de computação, unificando a conexão de mais de uma dúzia de chips domésticos diferentes e dezenas de clusters de computação. Isso resolve o problema da escassez de recursos de computação em sistemas de IA. Quando os recursos são insuficientes, a melhor estratégia é usar todos os recursos disponíveis, garantindo que cada unidade seja usada onde faz mais diferença, maximizando a eficiência de conversão.

Então, nesta fase, o que precisamos fazer é construir uma fábrica de tokens mais eficiente. Fizemos muitas otimizações, incluindo ajustar a compatibilidade de recursos de hardware e memória, e estamos analisando se as estruturas de modelos e hardware mais recentes podem gerar reações químicas mais profundas. Mas resolver a eficiência atual é basicamente criar uma fábrica de tokens padronizada.

Na era do Agent, acreditamos que isso ainda não é suficiente. Porque um Agent é mais parecido com uma pessoa, a quem se pode atribuir uma tarefa. Estou convencido de que muitas infraestruturas do período de computação em nuvem foram feitas para servir a programas ou engenheiros humanos, não IA. É como construir uma infraestrutura com interfaces para humanos, e depois colocar uma camada adicional para conectar os Agents, o que limita o desempenho do Agent usando capacidades operacionais humanas.

Por exemplo, Agents podem pensar e iniciar tarefas em milissegundos, mas capacidades de base como K8s (Kubernetes) não estão preparadas para isso, porque humanos iniciam tarefas em minutos. Então, precisamos de capacidades adicionais, o que chamamos de “Infra Agentic” ou “fábrica de tokens inteligente”, que é o que a Wuwen Xincong está fazendo.

Pensando mais a longo prazo, quando a verdadeira era do AGI chegar, acreditamos que até a infraestrutura deve ser um agente inteligente. A fábrica que estamos construindo também deve ser capaz de auto-evoluir e auto-iterar, formando uma organização autônoma. É como ter um CEO, onde esse CEO é um Agent, possivelmente o OpenClaw, gerenciando toda a infraestrutura, fazendo demandas e iterando-a de acordo com as necessidades dos clientes de IA. Assim, IA e IA podem se acoplar melhor. Estamos explorando coisas como comunicação entre Agents e capacidades de Cache to Cache.

Portanto, nossa reflexão é que infraestrutura e desenvolvimento de IA não devem estar em isolamento—não basta atender a uma demanda e implementar, mas gerar reações químicas muito ricas. Essa é a verdadeira cooperação entre software e hardware, entre algoritmos e infraestrutura, e sempre foi a missão da Wuwen Xincong. Obrigado.

05. Inovações de “compromisso com eficiência” também têm valor, DeepSeek traz coragem e confiança às equipes domésticas

Yang Zhilin: Agora quero perguntar ao Fuli. A Xiaomi recentemente contribuiu bastante para a comunidade ao lançar novos modelos e abrir o código das tecnologias subjacentes. Gostaria de saber: quais vantagens únicas você acha que a Xiaomi tem na criação de grandes modelos?**

Luo Fuli: Acho que podemos deixar de lado a questão de vantagens específicas da Xiaomi e falar mais sobre as vantagens gerais das equipes chinesas de grandes modelos. Acredito que esse tema tem um valor mais amplo.

Há cerca de dois anos, as equipes nacionais de modelos de base já fizeram avanços muito bons—como, sob limitações de computação, especialmente com largura de banda NVLink restrita, conseguimos romper essas limitações de hardware de baixo nível e fazer inovações na estrutura de modelos que parecem ser “por compromisso com eficiência”, como DeepSeek V2, V3, além de MoE, MLA, etc.

Mas depois percebemos que essas inovações provocaram uma transformação: com uma capacidade computacional fixa, como extrair o máximo de inteligência. Isso é o que DeepSeek trouxe de coragem e confiança para todas as equipes nacionais de modelos de base. Embora hoje nossos chips domésticos, especialmente os de inferência e treinamento, não tenham mais essas restrições, foi justamente sob essas limitações que impulsionamos novas explorações por uma maior eficiência de treinamento e menor custo de inferência.

Como as estruturas híbridas Sparse, atenção linear, por exemplo NSA do DeepSeek, KSA da Kimi, e HySparse da Xiaomi, voltadas para a próxima geração, são inovações na estrutura de modelos diferentes da geração MoE, feitas para a era do Agent.

Por que acho que inovação estrutural é tão importante? Porque, se você usar o OpenClaw bastante, perceberá que ele fica cada vez melhor e mais inteligente quanto mais usar. Um fator chave é o comprimento do contexto de inferência. Contexto longo é um tema que discutimos há muito, mas agora há modelos que realmente se destacam em contextos longos, com desempenho forte e baixo custo de inferência?

Na verdade, muitos modelos não são incapazes de lidar com 1M ou 10M de tokens de contexto, mas o custo de inferir com 1M ou 10M é muito alto e a velocidade muito lenta. Só ao reduzir custos e aumentar velocidades podemos realmente atribuir tarefas de alta produtividade aos modelos, realizar tarefas mais complexas em contextos longos, e até fazer auto-evolução do modelo.

Auto-evolução do modelo significa que ele pode evoluir a si mesmo em ambientes complexos, confiando em contextos ultra-longos. Essa evolução pode ser do próprio framework de agentes ou dos parâmetros do modelo—porque acredito que o contexto é uma forma de evolução dos parâmetros. Então, como construir uma arquitetura de longo contexto, como fazer inferência eficiente em contextos longos, é uma competição global.

Além da arquitetura eficiente de longo contexto que mencionei na fase de pré-treinamento—que já exploramos há cerca de um ano—agora, para alcançar estabilidade e alto limite de desempenho em tarefas de longo prazo, estamos iterando uma nova abordagem na fase pós-treinamento.

Estamos pensando em como criar algoritmos de aprendizagem mais eficazes, como coletar textos do mundo real com dependências de longo prazo em contextos de 1M, 10M, 100M tokens, e combinar esses dados com trajetórias geradas em ambientes complexos. Essa é a nossa linha de pesquisa no pós-treinamento.

Mas, olhando mais a longo prazo, devido ao avanço acelerado dos grandes modelos, aliado ao suporte do framework de agentes, como Lixue mencionou, a demanda de inferência nos últimos tempos já cresceu cerca de dez vezes. Então, neste ano, o uso total de tokens pode crescer até 100 vezes?

Isso entra em outro nível de competição—capacidade computacional, ou seja, chips de inferência, ou até energia. Portanto, acho que, se todos pensarem juntos sobre essa questão, posso aprender muito com vocês. Obrigado.

06. Agentes têm três módulos-chave, explosão de múltiplos agentes trará impacto

Yang Zhilin: Compartilhamento muito perspicaz. Agora quero perguntar ao Huang Chao. Você desenvolveu projetos influentes como Nanobot, e tem muitos fãs na comunidade. Gostaria de saber: do ponto de vista do harness de agentes ou da camada de aplicação, quais direções tecnológicas você acha mais importantes e que merecem atenção?**

Huang Chao: Acho que, se abstrairmos a tecnologia de agentes, o essencial são os módulos de Planning, Memory e Tool Use.

Começando pelo Planning. O problema principal hoje é em tarefas de longo prazo ou contextos muito complexos, como 500 passos ou mais, onde muitos modelos podem não fazer um planejamento eficiente. Acho que, fundamentalmente, é que os modelos talvez não tenham esse tipo de conhecimento tácito, especialmente em áreas verticais complexas. Então, no futuro, talvez precisemos consolidar esse conhecimento de tarefas complexas nos modelos, o que pode ser uma direção.

Claro, Skills e Harness também ajudam a mitigar erros do Planning, pois fornecem Skills de alta qualidade, que na essência guiam o modelo a realizar tarefas difíceis.

Sobre Memory, parece que há sempre problemas de compressão de informações imprecisa e recuperação imprecisa. Especialmente em tarefas de longo prazo e cenários complexos, a pressão sobre Memory aumenta muito. Hoje, projetos como o OpenClaw usam basicamente o sistema de arquivos mais simples, em formato Markdown, compartilhando arquivos. No futuro, o Memory pode evoluir para um design hierárquico e precisa se tornar mais geral.

Para ser honesto, os mecanismos atuais de Memory são difíceis de serem muito gerais—pois cenários de codificação, pesquisa profunda, multimodal, têm modalidades de dados muito diferentes. Como fazer boas buscas e indexações desses Memory, mantendo eficiência, é sempre um tradeoff.

Além disso, agora que o OpenClaw reduziu bastante a barreira para criar agentes, no futuro talvez não seja só um “lagosta”. Vejo que a Kimi também tem mecanismos de “Swarm de Agentes”, e no futuro cada pessoa pode ter uma “colônia de lagostas”.

Comparado a uma única lagosta, a explosão de contexto de um enxame é imaginável, trazendo uma pressão enorme para o Memory. Ainda não há uma boa mecânica para gerenciar esse contexto de “colônia de lagostas”, especialmente em cenários complexos de codificação ou descoberta científica, onde tanto o modelo quanto toda a arquitetura de agentes enfrentam grande pressão.

Sobre Tool Use, ou Skill, o problema atual é semelhante ao que o MCP enfrentou inicialmente—o MCP tinha problemas de qualidade, riscos de segurança, etc. Skills também têm esses problemas: parecem muitas, mas poucas de alta qualidade, Skills de baixa qualidade prejudicam a precisão na realização de tarefas. Além disso, há riscos de injeção maliciosa. Então, do ponto de vista de Tool Use, talvez seja necessário que a comunidade melhore o ecossistema de Skills, até que Skills possam evoluir novas Skills durante a execução.

Resumindo, Planning, Memory e Tool Use são pontos problemáticos atuais e possíveis direções futuras para os agentes.

07. Próximos 12 meses: palavras-chave: ecossistema, tokens sustentáveis, auto-evolução e capacidade computacional

Yang Zhilin: Podemos ver que os dois painelistas abordaram de perspectivas diferentes uma questão comum—à medida que a complexidade das tarefas aumenta, o contexto explode. Do nível do modelo, podemos ampliar o comprimento de contexto nativo; do nível do Harness de agentes, mecanismos como Planning, Memory e Multi-Agent também suportam tarefas mais complexas sob capacidades específicas do modelo. Acho que essas duas direções vão gerar mais reações químicas, melhorando ainda mais a capacidade de completar tarefas.

Por fim, uma previsão aberta. Cada um de vocês pode usar uma palavra para descrever as tendências de desenvolvimento dos grandes modelos nos próximos 12 meses e suas expectativas. Vamos começar com Huang Chao.

Huang Chao: 12 meses no campo da IA parecem tão distantes, nem sei o que vai acontecer em 12 meses.

Yang Zhilin: Na verdade, tinha escrito cinco anos ali, mudei.

Huang Chao: Certo, haha. Uma palavra que me veio à mente é “ecossistema”. Agora o OpenClaw mantém todos bastante ativos, mas para que os agentes realmente se tornem “trabalhadores”, e não só uma brincadeira passageira, eles precisam se consolidar, virar ferramentas de trabalho, colegas de verdade.

Isso exige esforço de todo o ecossistema, especialmente do open-source. Depois de abrir o código para exploração tecnológica e modelos, é preciso que toda a comunidade co-construa—seja na evolução dos modelos, na plataforma de Skills ou nas várias ferramentas—tudo precisa criar um ecossistema melhor voltado para os agentes.

Uma tendência bastante clara é: no futuro, os softwares ainda serão feitos para humanos? Acredito que muitos softwares do futuro podem não ser mais feitos para humanos—pois o que eles precisam é de GUIs, enquanto o futuro pode ser uma utilização nativa por agentes. Curiosamente, os humanos podem usar apenas aqueles GUIs que os deixam felizes. E agora, todo o ecossistema mudou do modo GUI e MCP para o modo CLI. Isso exige que o sistema transforme software, dados e tecnologias em formas nativas de agentes, para que o desenvolvimento seja mais rico.

Luo Fuli: Reduzir a uma previsão de um ano é muito significativo. Se fosse cinco anos, na minha definição de AGI, acho que já estaria realizado. Então, para resumir em uma palavra o aspecto mais importante na jornada de AGI no próximo ano, diria que é “auto-evolução”.

Essa palavra soa um pouco de ficção científica, e todos a mencionaram várias vezes no último ano. Mas tenho tido uma experiência mais profunda recentemente, ou seja, soluções mais práticas e viáveis de como fazer “auto-evolução”. A razão é que, com modelos poderosos, no paradigma de Chat, não estamos aproveitando ao máximo o limite superior dos modelos pré-treinados, e o framework de agentes ativou esse limite. Quando fazemos modelos executarem tarefas mais longas, percebemos que eles podem aprender e evoluir por si próprios.

Uma tentativa simples é: acrescentar uma condição verificável no framework de agentes atual, definir um loop, fazer o modelo iterar e otimizar continuamente, e você verá que ele consegue gerar soluções melhores continuamente. Essa auto-evolução já consegue rodar por um ou dois dias, dependendo da complexidade da tarefa.

Por exemplo, em algumas pesquisas científicas, como explorar estruturas melhores de modelos, porque estruturas de modelos têm padrões de avaliação, como menor PPL. Em tarefas determinísticas assim, já conseguimos que eles otimizem e executem de forma autônoma por dois ou três dias.

Então, do meu ponto de vista, a auto-evolução é o único lugar que pode “criar coisas novas”. Não é substituir nossa produtividade humana atual, mas, como cientistas de ponta, explorar coisas que ainda não existem no mundo. Há um ano, achava que esse prazo era de três a cinco anos, mas recentemente acho que deve ser reduzido para um ou dois anos. Talvez em breve consigamos usar grandes modelos combinados com um framework de auto-evolução poderoso, acelerando exponencialmente a pesquisa científica.

Recentemente, percebi que colegas do nosso grupo que fazem pesquisa com grandes modelos têm fluxos de trabalho altamente incertos, altamente criativos, mas, usando Claude Code e modelos de ponta, nossa eficiência de pesquisa aumentou quase dez vezes. Estou muito ansioso para que esse paradigma se espalhe para disciplinas e áreas mais amplas, por isso, acho que “auto-evolução” é muito importante.

Xia Lixue: Minha palavra-chave é “tokens sustentáveis”. Vejo que toda a evolução da IA ainda está num processo de longo prazo, e esperamos que ela tenha vitalidade duradoura. Do ponto de vista de infraestrutura, um grande problema é que os recursos são limitados.

Como na discussão de desenvolvimento sustentável, como uma fábrica de tokens, podemos fornecer tokens de forma sustentável, estável e em grande escala, permitindo que modelos de ponta realmente atendam a mais downstream, esse é um problema que vejo como muito importante.

Precisamos ampliar nossa visão para todo o ecossistema—desde energia até capacidade de computação, depois tokens, e por fim aplicações, formando uma cadeia de valor sustentável. Não basta usar toda a capacidade de computação doméstica, também precisamos exportar essas capacidades para o exterior, conectando e integrando recursos globais.

Acredito que “sustentável” também significa construir uma economia de tokens com características chinesas. No passado, falávamos de Made in China, transformando a capacidade de manufatura de baixo custo da China em produtos de qualidade para exportar globalmente.

Agora, o que queremos fazer é “IA Made in China”—transformar as vantagens da China em energia, por exemplo, em tokens de alta qualidade de forma sustentável, e exportar para o mundo, tornando-se a fábrica de tokens do mundo. Essa é a contribuição que espero que a China traga para a IA global neste ano.

Zhang Peng: Vou ser breve. Todos olham para as estrelas, eu fico com os pés no chão. Minha palavra-chave é “capacidade de computação”.

Como já disse, toda tecnologia e estrutura de agentes aumentaram a criatividade e eficiência de todos em dez vezes, mas o pressuposto é que as pessoas possam realmente usar isso. Você não pode fazer uma pergunta, ela pensar um tempo e não dar resposta, isso não funciona. E por isso, muitos avanços de pesquisa e muitas coisas que queremos fazer ficam bloqueadas.

Há alguns anos, lembro que um acadêmico disse na Zhongguancun que: “Sem chips, sem paixão; com chips, machucando sentimentos.” Acho que estamos chegando nesse ponto novamente, mas a situação é diferente. Entramos na fase de inferência, as demandas estão realmente explodindo—crescimento de dez ou cem vezes. Você disse que o uso aumentou dez vezes, mas a demanda real pode ter aumentado cem vezes. Há muitas necessidades não atendidas. O que fazer? Talvez todos possam pensar juntos sobre isso.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.06M Popularidade
#
RangeTradingStrategy
52.35K Popularidade
#
IsraelStrikesIranBTCPlunges
17.65K Popularidade
#
BitcoinWeakens
101.1M Popularidade
#
FedRateHikeExpectationsResurface
880.16K Popularidade

Gate Fun tendência
Ver mais

1
TLR
Telluria
LM:$2.24KTitulares:1
0.00%
2
BROSS
BROSS
LM:$2.25KTitulares:1
0.00%
3
ygb
toket
LM:$2.25KTitulares:1
0.00%
4
Cartoon
Cartooncoin
LM:$2.26KTitulares:1
0.14%
5
紫薇币
ZW
LM:$2.25KTitulares:1
0.00%

Fixar

Zhipu, Lado Sombrio da Lua, Xiaomi na mesa redonda: os grandes modelos realmente começam a "trabalhar", mas a capacidade de computação continua a ser o maior obstáculo

01. OpenClaw é uma “andaime”, o consumo de tokens de grandes modelos ainda está na era do 3G

02. OpenClaw eleva o limite dos modelos domésticos, significado revolucionário na mudança de modo de interação

03. Novo modelo GLM feito para “trabalhar”, aumento de preço é retorno ao valor comercial normal

04. Construir uma fábrica de tokens mais eficiente, infraestrutura também deve ser um Agent

05. Inovações de “compromisso com eficiência” também têm valor, DeepSeek traz coragem e confiança às equipes domésticas

06. Agentes têm três módulos-chave, explosão de múltiplos agentes trará impacto

07. Próximos 12 meses: palavras-chave: ecossistema, tokens sustentáveis, auto-evolução e capacidade computacional

Tópicos em destaque

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun tendência

TLR

Telluria

BROSS

BROSS

ygb

toket

Cartoon

Cartooncoin

紫薇币

ZW

Fixar