Yang Zhilin, Zhang Peng, Luo Fuli no palco: Após a febre do camarão, para onde se dirige a mudança na IA?

Notícia de 27 de março do Notícias do Baleia Azul (27/03) (por repórter Zhu Junxi) Em 27 de março, no Fórum AI Open Source Frontier, durante o Annual Meeting do 2026 Fórum Zhongguancun, uma mesa-redonda sobre “OpenClaw e AI de código aberto” destacou-se particularmente. Yang Zhilin, fundador do Mianzhiming (Moonshot Mind), subiu ao palco como moderador, e os convidados para o diálogo incluíam Zhang Peng, CEO da Zhipu; Xia Lixue, cofundadora e CEO da Wuwen Qixiong; Luo Fuli, responsável por modelos de grande escala MiMo da Xiaomi; e Huang Chao, professor assistente da Universidade de Hong Kong.

Os cinco convidados no mesmo palco abrangiam a camada de modelos e a camada de infraestruturas da cadeia da indústria de IA. Entre eles, tanto a Mianzhiming (Moonshot Mind) quanto a Zhipu trazem uma marca genética bem clara de Tsinghua. Yang Zhilin graduou-se na Universidade de Tsinghua no bacharelato; Zhang Peng estudou em Tsinghua desde o bacharelato até ao doutoramento; e Xia Lixue também é oriunda do Departamento de Engenharia Eletrónica de Tsinghua. Já Luo Fuli, depois de se formar em Pequim (Peking University), entrou primeiro no Instituto DAMO da Alibaba e, em seguida, juntou-se à DeepSeek como investigador de aprendizagem profunda, participando no desenvolvimento de modelos como o DeepSeek-V2.

Quanto ao projeto Agent OpenClaw, que recentemente esteve em alta, Zhang Peng descreveu-o como “andaime” (“脚手架”). Sobre a base do modelo, ele constrói um arcabouço sólido, conveniente e flexível, permitindo que pessoas comuns utilizem de forma fácil as capacidades de modelos de topo — especialmente em programação e em agentes.

Luo Fuli acredita que, do ponto de vista dos modelos base (foundation models), o OpenClaw, por um lado, eleva o limite superior das capacidades do modelo, fazendo com que muitos modelos no país se aproximem do desempenho de modelos de topo na maioria das tarefas; por outro lado, através de mecanismos como o sistema harness e a estrutura de skills, garante o limite inferior de conclusão das tarefas e a estabilidade. Do ponto de vista ainda mais macro, o OpenClaw também acendeu um novo espaço de imaginação na camada de agentes, para além dos modelos de grande escala.

Nesta vaga de entusiasmo pelo OpenClaw, empresas de modelos de grande escala como a Mianzhiming (Moonshot Mind) e a Zhipu tornaram-se beneficiárias. O limiar para implantar localmente o OpenClaw é relativamente alto, e o rápido consumo de tokens em tempo de execução também traz custos elevados. Isso fez com que muitos utilizadores voltassem o olhar para outra opção: soluções de “deploy com um clique” (“一键部署”) oferecidas por fornecedores de cloud e fornecedores de modelos no país.

Em 18 de fevereiro, a Mianzhiming (Moonshot Mind) lançou o produto OpenClaw em cloud — o Kimi Claw — que suporta a implantação direta do OpenClaw dentro do Kimi. Ele reúne, em pacote, as capacidades de agentes do OpenClaw, infraestruturas em cloud e chamadas imediatas de skills; além disso, pode aproveitar as capacidades avançadas de pesquisa em rede e captura de dados do Kimi e configurar automaticamente o modelo K2.5 Thinking.

Em 10 de março, a Zhipu também disponibilizou o AutoClaw (Aolong), a “versão local do OpenClaw com um clique” (“一键安装的本地版OpenClaw”). No meio deste mês, a Zhipu ainda lançou um modelo base GLM-5-Turbo profundamente otimizado para cenários de lagosta (龙虾) relacionados ao OpenClaw. Desde a fase de treino, ele foi otimizado especificamente para as necessidades centrais dessas tarefas de lagosta, reforçando capacidades-chave como chamadas de ferramentas, obediência a instruções, tarefas agendadas e de continuidade, execução de longas cadeias, entre outras.

Fabricantes de telefones como a Xiaomi também estão a avançar rapidamente. Em 6 de março, o Agent móvel “Xiaomi miclaw” iniciou oficialmente um teste restrito em pequena escala. Trata-se do primeiro aplicativo de AI Agent no país do tipo OpenClaw para dispositivo móvel\u0026zwnj; . Este Agent é baseado no modelo de grande escala MiMo da Xiaomi, e o objetivo central é implantar a capacidade de execução de modelos na camada do sistema do telemóvel, executando operações a nível do sistema de forma autónoma.

No encerramento do fórum, Yang Zhilin lançou uma questão aberta: “Com uma palavra, descreva a tendência de desenvolvimento dos modelos de grande escala nos próximos 12 meses e as suas expectativas.” Huang Chao brincou dizendo que “12 meses na área de IA parecem muito distantes”. Yang Zhilin respondeu que, originalmente, a questão estava definida como “cinco anos”, mas ele encurtou para um período mais realista.

Luo Fuli afirmou que, no percurso de AGI do próximo ano, a coisa mais crucial será a autoevolução. Ela acredita que, no paradigma de diálogo anterior, o limite superior das capacidades dos modelos pré-treinados não foi plenamente libertado; à medida que o desenvolvimento da framework de agentes progride, esse limite superior vai sendo ativado gradualmente. Na sua perspetiva, o significado da autoevolução não está em substituir a capacidade produtiva humana, mas sim, tal como fazem os melhores cientistas, explorar coisas que ainda não existem neste mundo.

Zhang Peng regressou às considerações práticas, dizendo diretamente que a capacidade computacional (computação) continua a ser o maior problema. Ele apontou que, embora a framework de agentes permita que muitas pessoas tenham uma criatividade muito boa e aumentos de eficiência de dez vezes, o pressuposto é que “seja possível usá-la”. À medida que a indústria muda para a fase de inferência, a procura apresenta uma explosão de 10x e 100x, e existem ainda muitas necessidades que não foram satisfeitas — e será preciso pensar em conjunto numa solução.

A seguir está o registo da conversa da mesa-redonda. O conteúdo foi ajustado pela Notícias do Baleia Azul mantendo a intenção original:

Yang Zhilin

O OpenClaw que está mais na moda agora: todos vocês usam o OpenClaw no dia a dia ou produtos semelhantes. O que é que acham ser mais imaginativo ou mais marcante? Do ponto de vista técnico, como é que se avalia a evolução de hoje do OpenClaw e dos agentes relacionados?

Zhang Peng

De facto, eu já comecei muito cedo a brincar com o OpenClaw. Naquela altura ainda nem se chamava OpenClaw; o nome mais antigo era Clawdbot. Eu andava a mexer nestas coisas, a pôr a mão na massa. Afinal, eu também sou de formação em programação, e brincar com estes assuntos dá-nos uma certa sensação própria. Eu acho que a maior viragem, o maior ponto de novidade, está no facto de que, isto já não é uma “propriedade” — um privilégio — de programadores ou de geeks; pessoas comuns também podem utilizar de forma relativamente conveniente capacidades de modelos de topo, especialmente essas capacidades em programação e em agentes.

Então, até agora, no processo de conversarmos uns com os outros, eu estou mais inclinado a chamar a isto do OpenClaw de “andaime”. O que ele fornece é uma possibilidade: em cima do modelo, constrói um andaime muito sólido e muito conveniente, mas ao mesmo tempo bastante flexível. A partir daí, toda a gente pode usar, conforme a própria vontade, muitas coisas novas que os modelos de base proporcionam. Antes, algumas das minhas ideias eram limitadas porque eu não sabia escrever código, ou não tinha essas skills. Mas agora, finalmente, dá para fazer isso através de uma comunicação muito simples. Portanto, para mim, isto foi um impacto muito grande, ou dito de outro modo, fez-me repensar e reconhecer novamente uma coisa assim.

Xia Lixue

Na verdade, quando eu comecei a usar o OpenClaw, eu não me adaptei bem. Porque eu estava habituada a esse modo de comunicação — conversar com modelos de grande escala. E depois descobri que o OpenClaw parecia reagir muito devagar. Mas mais tarde eu percebi um problema: ele é muito diferente dos chatbots anteriores. Ele deveria ser uma “pessoa” capaz de me ajudar a concluir uma grande tarefa. Por isso, quando eu comecei a submeter a ele tarefas mais complexas, eu descobri que ele de facto conseguia fazer isso muito bem.

Para mim, uma coisa muito marcante é que, para além do modelo começar por “conversar” seguindo token, agora ele consegue virar um agente, virar um agente que, como se fosse um “dragon”, te ajuda a concluir tarefas. Isso elevou bastante o espaço de imaginação de toda a IA para nós. Ao mesmo tempo, a exigência de capacidade para o sistema inteiro também se tornou muito maior. É por isso que, quando eu comecei a usar o OpenClaw, senti que ele ficava um pouco “engasgado”.

Então, eu, como um fornecedor de uma camada de infraestrutura, o que eu vejo é que o Claw traz mais oportunidades e também desafios para os grandes sistemas e ecossistemas por trás de toda a IA. Porque, atualmente, todos os recursos que temos à disposição, para sustentar um período de crescimento tão rápido, não são suficientes. Por exemplo, na nossa empresa, lá no fim de janeiro, começou — basicamente, a cada duas semanas a nossa quantidade de tokens dobra; agora, já aumentou cerca de dez vezes. A última vez que vi um ritmo assim foi na época em que a sensação era como o tráfego de dados de telemóvel no tempo do 3G.

Por isso, eu sinto que o consumo de tokens agora está, de certa forma, como se fosse o tráfego de telemóvel de 100 megabytes por mês que existia naquela altura. Nestas circunstâncias, na verdade, todos os nossos recursos precisam de ser otimizados melhor e integrados melhor. Para que cada uma das pessoas — não apenas na área de IA, mas na sociedade como um todo — cada pessoa viva e real consiga realmente utilizar este OpenClaw e estas capacidades de IA. Então, como agente do lado da infraestrutura, eu estou muito animada e comovida com este momento. Além disso, eu acredito que há aqui muitos espaços de otimização para explorarmos e tentarmos.

Luo Fuli

Eu, pessoalmente, encaro o OpenClaw como um evento muito revolucionário e de ruptura — como uma coisa completamente nova — no que toca à framework de agentes. Embora eu saiba que as pessoas ao meu redor que fazem um coding muito profundo talvez a primeira escolha continue a ser basear-se no Claude Code, mas eu acredito que só quem usou o OpenClaw consegue sentir de forma única este quadro. Na sua conceção, há muitos aspetos no framework de agentes que são mais avançados do que o Claude Code. Inclusivamente, as muitas atualizações recentes do Claude Code, na prática, estão a aproximar-se do OpenClaw.

Quando eu uso o OpenClaw, sinto que o framework me dá uma expansão de imaginação “a qualquer hora, em qualquer lugar”. O Claude Code talvez no início só me permitia estender a minha criatividade no meu desktop, mas no OpenClaw consigo estender a criatividade em qualquer lugar e a qualquer momento.

Depois eu descobri que o valor central que o OpenClaw traz tem dois pontos. O primeiro é que é open source (código aberto). O open source é, na verdade, uma condição muito favorável para a comunidade conseguir participar a fundo, valorizar melhorias, e investir nesse assunto do framework de agentes. Isto é um pré-requisito muito importante. Como no caso do OpenClaw e de frameworks de agentes como o Claude Code, eu acredito que o grande valor está em elevar o teto do que os modelos conseguem fazer numa via em que — possivelmente no país — não há uma proximidade muito grande a modelos fechados, mas ainda assim a fasquia — o teto — de um modelo nesse “corredor” de modelos menos fechados pode ser elevado até um nível muito alto. Em quase todos os cenários, nós podemos ver que o grau de conclusão das tarefas já está muito perto do modelo mais recente do Claude. E ao mesmo tempo, ele garante muito bem o limite inferior. Porque ele pode garantir a completude e a exatidão das tarefas através de um conjunto de sistema harness — ou através da estrutura de skills e muitas outras conceções.

Portanto, eu acho que o OpenClaw, do ponto de vista dos modelos de base, garante o limite inferior do grande modelo de base e puxa para cima o seu limite superior.

Além disso, do meu ponto de vista, o valor que o OpenClaw traz para toda a comunidade é que ele acende de forma ainda mais forte a camada, mais importante, dos agentes — aquela camada fora dos modelos de grande escala. E essa camada tem muita imaginação e espaço. É o que eu vejo: recentemente, há cada vez mais pessoas na comunidade a participar na transformação de AGI, não apenas investigadores. E também há cada vez mais pessoas a recorrer a frameworks de agentes mais fortes, harness e assim por diante, para substituir em certa medida o próprio trabalho, libertando o seu tempo, para fazer coisas mais imaginativas.

Yang Zhilin

Recentemente, a Zhipu também lançou um novo modelo GLM-5-Turbo. Pelo que eu entendo, isto representa também um grande reforço da capacidade de agentes. Então, vocês podem apresentar ao público este novo modelo e em que difere dos outros modelos? E também observámos uma estratégia de aumento de preço — que tipo de sinal de mercado ela reflete?

Zhang Peng

Nos últimos dois dias, de facto, atualizámos em caráter urgente. Claro que isso também é uma fase dentro do nosso roteiro geral de desenvolvimento: nós provavelmente já o tínhamos preparado para lançar de forma antecipada. O objetivo principal é mesmo apostar na transição de “diálogo simples” para “fazer trabalhos”. E isto também foi algo com que todos concordaram agora há pouco: o OpenClaw realmente faz com que as pessoas sintam que modelos de grande escala já não são apenas para conversar; eles realmente conseguem ajudar-me a fazer tarefas.

Mas por trás desta capacidade de “fazer trabalho”, a necessidade de capacidade é muito alta. Ele precisa de planear tarefas de forma longa, fazer tentativas repetidas, comprimir continuamente o seu contexto, dar debug, etc. E pode envolver também processamento multimodal. Por isso, a exigência de capacidade para o próprio modelo é, na verdade, um pouco diferente daquela de modelos gerais tradicionais virados para conversação. É por isso que o GLM-5-Turbo, nesta área, fez alguns reforços específicos: por exemplo, fazemos com que ele “trabalhe” por 7x24 horas no longo prazo — como fazê-lo não parar, mas sim manter o loop sozinho. Nisto, investimos muitos trabalhos.

Além disso, as pessoas também mencionaram a questão do consumo de tokens. Modelos “inteligentes” ao executarem tarefas complexas podem consumir quantidades de tokens muito grandes. Uma pessoa comum pode não conseguir sentir isso, mas só vê o dinheiro na fatura a ir caindo continuamente. Por esse motivo, também fizemos algumas otimizações: ao enfrentar tarefas complexas, ele pode utilizar uma eficiência de tokens mais eficaz para fazer isso. Portanto, otimizámos principalmente nesses aspetos. Mas, no fundo, a arquitetura do modelo continua a ser uma arquitetura de modelo geral de coordenação de múltiplas tarefas; apenas que, em termos de capacidades, há reforços com algum enviesamento.

Explicar a questão do aumento de preço é, na verdade, relativamente coerente com o que foi dito. Já não se trata simplesmente de responder a uma pergunta; por trás há um “encadeamento de pensamento” muito longo. E muitas tarefas: ao escrever código para interagir com infraestruturas na camada base, além de dar debug e corrigir os erros sempre que necessário. Todo esse consumo é enorme. Para concluir uma tarefa, a quantidade de tokens necessária pode ser 10 vezes ou até 100 vezes a de responder a uma questão simples. Assim, o preço precisa de refletir um aumento de custo. E como o modelo ficou maior, o custo de inferência também aumentou — por isso, colocámos isto de volta num valor comercial “normal”.

Competir a longo prazo com preços baixos não favorece o desenvolvimento de toda a indústria. Esta é uma consideração nossa, que nos permite manter um bom ciclo fechado positivo na via de comercialização — otimizar continuamente a capacidade do modelo e fornecer de forma mais sustentável aos utilizadores modelos melhores e também serviços de tokens correspondentes.

Yang Zhilin

Agora, com modelos open source e capacidade de inferência computacional, sinto que começa a formar-se um ecossistema: vários modelos open source podem oferecer mais valor aos utilizadores em várias capacidades de inferência. Com a cotação de tokens, pode também estar a começar a deslocar-se gradualmente do tempo da era do treino para a era da inferência. Então, quero perguntar: a partir da camada infra, o que é que a era da inferência significa para Wuwen?

Xia Lixue

Porque nós somos um fornecedor de infraestruturas que nasceu na era da IA. Agora também fazemos parcerias para com Kimi, Zhipu e MiMo, para que todos consigam utilizar a nossa “fábrica de tokens” de forma mais eficiente. Por isso, nós sempre estivemos a pensar numa coisa: que tipo de infraestrutura é necessária na era da AGI? Como é que conseguimos realizá-la e antecipá-la passo a passo?

Neste momento, também estamos preparados de forma suficiente e vimos que problemas diferentes precisam ser resolvidos em fases diferentes — curto, médio e longo prazo.

O problema mais imediato agora é a explosão do volume total de tokens. Isto coloca uma exigência ainda maior de otimização para a eficiência do nosso sistema. Incluindo o aumento de preços, que também é uma forma de resolver esta necessidade. De forma contínua, temos feito planeamento e resolução ligando software e hardware: incorporámos acesso a quase todos os tipos de chips de computação disponíveis; reunimos e conectámos num sistema unificado as dezenas de clusters de computação e várias dezenas de chips, resolvendo a escassez de recursos computacionais num sistema de IA. Porque quando os recursos são insuficientes, a melhor forma é primeiro aproveitar tudo o que consegue ser usado; em segundo lugar, fazer com que cada capacidade computacional seja aplicada onde realmente importa, para que cada recurso alcance a maior eficiência de conversão e valor.

Neste cenário, o que queremos resolver agora é como continuar a construir uma “fábrica de tokens” ainda mais eficiente. Nesta parte, fizemos muitas otimizações: assegurar a melhor adaptação de vários tipos de memória de vídeo (VRAM) e de técnicas de hardware ao modelo; e também avaliar se, com a estrutura mais recente de modelos e com a estrutura de hardware, é possível haver reações “químicas” mais profundas. Resolver o problema de eficiência mais imediato — na prática — é apenas construir uma “fábrica de tokens” padronizada.

Mas para a era dos agentes, nós achamos que ainda não é suficiente. Porque, como acabou de ser dito, um agente é mais parecido com uma pessoa: nós conseguimos entregar-lhe uma tarefa. Eu acredito firmemente que a grande parte da infraestruturas do mundo do cloud computing na era atual foi concebida para servir um programa e servir um engenheiro humano, e não foi concebida para IA. É um pouco como isto: nós fazemos uma infraestrutura com uma interface feita para engenheiros humanos; e depois precisamos embrulhar mais uma camada para depois integrar um agente em cima. Esse método, na verdade, limita as capacidades do agente por causa das operações voltadas para pessoas.

Nós chamamos isso de agentic infra — infraestruturas orientadas a agentes — e precisamos de construir uma “fábrica de tokens” mais inteligente. Este é precisamente o que a Wuwen Qixiong está a fazer agora. Num futuro mais longo, quando a verdadeira era da AGI chegar, nós acreditamos que até a própria infraestrutura deveria ser um agente. A nossa fábrica também deveria ser capaz de evoluir e iterar por si mesma, formando uma organização autónoma. É como se tivesse um CEO: este CEO seria um agente, e talvez um claw a gerir toda a infraestrutura — pedindo necessidades de acordo com o que os clientes de IA requerem, iterando a própria infraestrutura. Assim, entre IA e IA é que se forma uma melhor acoplagem. Por isso, também estamos a fazer coisas como permitir uma comunicação melhor entre agentes — e capacidades de cópia como catch to catch.

Então, nós temos estado sempre a pensar que o desenvolvimento de infraestruturas e de IA não deve ser um estado isolado: eu recebo uma necessidade e depois eu faço um produto. Pelo contrário, deveria criar reações químicas muito ricas. Isto é o que eu considero como o verdadeiro soft-hardware (software/hardware) em cooperação — e a cooperação entre algoritmos e infraestruturas.

Yang Zhilin

A Xiaomi também publicou recentemente novos modelos, incluindo código aberto de tecnologias por trás. Eu acho que isso trouxe uma grande contribuição para esta comunidade. Então, quero perguntar: na sua visão, naquilo que a Xiaomi faz em modelos de grande escala, quais são as vantagens únicas?

Luo Fuli

Eu acho que devemos primeiro deixar de lado a questão de quais são as vantagens únicas da Xiaomi ao fazer modelos de grande escala, e eu quero sobretudo falar sobre uma coisa: a vantagem das equipas que fazem modelos de grande escala na China ao fazê-los. Eu acho que este tema tem um valor mais amplo.

Cerca de dois anos atrás, eu vi que as equipas de modelos base na China já estavam a começar uma rutura muito boa. Esta rutura é: como é que, com recursos computacionais limitados — especialmente quando em alguns cenários há limitação de nvlink e de largura de banda de interconexão — é possível ultrapassar as limitações desses recursos computacionais mais “inferiores”, fazendo inovações na estrutura de modelo que parecem feitas para aceitar compromissos em eficiência. Exemplos disso incluem a família MoE do DeepSeek V2, V3, etc. Mas depois também conseguiremos ver que, por trás destas inovações, existe uma transformação. Esta transformação é: como é que, com uma capacidade computacional fixa, conseguimos fazer com que o nível mais elevado de inteligência seja alcançado com essa capacidade.

Porque é que eu acho que a inovação estrutural é tão importante? É porque, há pouco, nós debatemos o tema do OpenClaw. Se toda a gente o usar realmente, vai descobrir que quanto mais usa, mais prático fica, e mais “inteligente” ele fica. O pré-requisito disso é o contexto de inferência.

O contexto é um tema que discutimos há muito tempo. Mas agora, o que descobrimos é que existem modelos com desempenho muito bom em long context, com potência muito forte e com custo de inferência muito baixo. Muitos modelos não é que não consigam, mas sim que o custo é demasiado elevado e a velocidade é demasiado lenta. Então, como fazer com que, mesmo com 1 milhão ou 10 milhões de contexto, o custo de inferência seja suficientemente baixo e a velocidade suficientemente rápida? Só nesse cenário se podem atribuir ao modelo tarefas de verdadeiro valor de alta produtividade, concluindo tarefas de ainda maior complexidade, e talvez então se possa realizar a autoiteração (autoiterabilidade) do modelo.

O que se chama de autoiteração de modelos é: num ambiente complexo, com base no contexto extremamente longo, completar a evolução do próprio modelo. Essa evolução pode ser para a própria framework de agentes ou pode ser para os próprios parâmetros do modelo. Porque nós acreditamos que o long context em si é uma evolução para os parâmetros. Assim, como concretizar uma arquitetura “long context efficient”, e como tornar o lado de inferência “long context efficient” — isso é uma competição em todos os aspetos.

Além disso, para além de ter mencionado que antes, na fase de pré-treino, se faz uma arquitetura long context efficient — que talvez tenhamos explorado já há um ano — existe também outra questão: como obter estabilidade e um nível muito alto de eficácia em tarefas de longa distância reais no long context. Hoje, o paradigma é usar o pós-treino para iterar e inovar. Nós estamos a pensar como construir algoritmos de aprendizagem mais eficazes, como recolher textos reais que sejam realmente dependentes em contextos que vão de 1 milhão, 10 milhões, até 100 milhões, e combiná-los com ambientes complexos para gerar trajectórias. Isto é precisamente o que estamos a atravessar no pós-treino.

Mas eu consigo ver uma coisa mais a longo prazo: porque os modelos de grande escala, por si, estão a progredir rapidamente, e porque a framework de agentes lhes dá um suporte melhor. Nós podemos observar as exigências de inferência; acredito que, no que aconteceu este ano, houve um crescimento de quase 10 vezes em relação ao período anterior. Este crescimento de tokens este ano vai chegar a 100 vezes? Aqui chegamos a mais uma dimensão de competição: a capacidade computacional — ou seja, chips de inferência — e até energia.

Yang Zhilin

Huang Chao também desenvolveu alguns projetos de agentes muito influentes. Na sua opinião, em termos de harness de agente ou de camada de aplicação, quais seriam as direções técnicas que considera mais importantes e que as pessoas precisam de acompanhar?

Huang Chao

Primeiro, se abstrairmos a tecnologia dos agentes e olharmos para os pontos-chave — como planning, memory e to use — estes módulos.

Em termos de planning, eu acho que o problema atual continua a ser para tarefas em camadas e para contextos muito complexos. Muitos modelos talvez não consigam fazer um bom planning, porque eu acho que, na essência, eles não têm conhecimento implícito desse tipo, especialmente em muitos domínios verticais complexos. Então eu acho que no futuro, no planning, é preciso consolidar o conhecimento existente sobre várias tarefas complexas dentro do modelo.

Quanto a skill, eu acho que, em certa medida, também inclui o harness. E eu acho que isso ajuda a aliviar os erros que o planning pode causar. Porque ele fornece algumas skills de qualidade relativamente elevada; na essência, também funciona como um guia para que o modelo realize algumas tarefas mais difíceis.

Em relação a memory, a nossa perceção é como se ela existisse sempre, mas há problemas como compressão de informação imprecisa. E em cenários complexos, a memory pode aumentar explosivamente. Eu acho que isso traz uma pressão para a memory. Mas atualmente, inclusive as pessoas que usam muitos “dragon” (lagostas) — todos usam tipos mais simples de memory, como formatos de sistema de ficheiros. Através de partilhar alguns ficheiros para construir a memory. Eu acho que este é um ponto que, no futuro, a memory deveria evoluir para um desenho em camadas: como tornar a memory mais generalista.

Eu acho que é muito difícil tornar todo o mecanismo de memory universal. Por exemplo: em cenários de coding, em deep research, em multimédia, as diferenças no tipo de dados (modalidades) são grandes. Como fazer uma boa pesquisa e indexação sobre essas memories — eu acho que isso será sempre um trade-off.

Além disso, há outro ponto: como os “dragon” baixaram muito o limiar para criar agentes, no futuro pode haver mais do que um único “dragon”. Eu vi que o Kimi também está a surgir com mecanismos como agent swarm. Isso significa que, no futuro, cada pessoa pode ter uma “nuvem” de dragon. Com isso, o contexto pode aumentar de forma enorme, e nós podemos imaginar que isso trará ainda mais pressão para a memory. Atualmente, ainda não existe um mecanismo muito bom para gerir o contexto inteiro gerado por este conjunto de agentes “dragon”.

Quanto a to use, eu acho que os problemas do MCP ainda existem: a skill ainda vai existir. Por exemplo, no MCP, na altura, a qualidade não era garantida e podia haver problemas de segurança. No caso de skill, na prática, parece que existem muitas skills, mas skills de elevada qualidade são relativamente poucas; skills de baixa qualidade podem afetar muito a conclusão das tarefas do agente. Além disso, muitas vezes as skills também podem existir com injeções maliciosas. Então, na parte do to use, eu acho que talvez seja preciso que a comunidade ajude — desenvolvendo melhor todo o ecossistema de skills — e até evoluindo novas skills durante o processo de execução.

Yang Zhilin

As duas pessoas recém-convidadas discutiram este problema por perspetivas diferentes. Com o aumento da complexidade das tarefas, o contexto aumenta. Talvez, a partir do nível do modelo, seja possível aumentar o comprimento nativo do contexto. Talvez, a partir do nível do agent harness — como planning, memory, e harness de multi-agents — seja possível, na verdade, apoiar tarefas mais complexas com as capacidades de um modelo específico. Eu sinto que estas duas direções vão gerar mais reações químicas no futuro e ajudar a aumentar a capacidade de enfrentar a dificuldade das tarefas.

Por fim, vamos fazer uma perspetiva aberta: então quero pedir a todos que, com uma palavra, descrevam a tendência de desenvolvimento dos modelos de grande escala nos próximos 12 meses e as vossas expectativas.

Huang Chao

Eu sinto que 12 meses em IA parecem muito distantes. Nem sei como vai ser depois de 12 meses.

Yang Zhilin

No original estava “cinco anos”; eu alterei.

Huang Chao

Primeiro, a partir de mim, acho que uma palavra deveria ser “ecossistema”. Os “dragon” tornaram as pessoas tão ativas. No futuro, os agentes realmente terão de evoluir para algo mais do que “assistentes pessoais” — especialmente para a transição para “trabalhadores assalariados”. Eu acho que isto é muito importante. Porque muitas vezes agora as pessoas brincam com dragon como uma novidade, porque é divertido. Mas eu acho que, no futuro, para os “dragon” realmente assentarem e ficarem sólidos, eles têm de se tornar uma ferramenta para “fazer tijolos” — ou seja, virar um coworker de verdade. Então, eu acho que para isto vai ser necessário o esforço de todo o ecossistema.

Incluindo o open source, que eu acredito que é muito importante: depois de abrir todas as explorações técnicas relacionadas, e também muitas tecnologias de modelos, é necessário que todos construam em conjunto o ecossistema. Não importa para a iteração dos modelos, nem para a iteração de plataformas de skills, nem para várias ferramentas. Eu acho que tudo isto precisa de ser feito de forma melhor, mais voltado para os “dragon”, para criar um ecossistema melhor.

O que eu sinto é mais evidente: no futuro, muito software — incluindo agora que já há dragon — as pessoas vão pensar numa questão: o software vai continuar a ser feito para humanos?

A nossa crença é que, no futuro, a maior parte do software talvez não seja necessariamente para humanos. Porque humanos precisam de GUI; possivelmente será feito para ser usado nativamente por agentes. Isso requer que todo o ecossistema faça com que sistemas de software, dados e várias tecnologias se tornem, na verdade, modos “nativos de agentes” — só assim o desenvolvimento de agentes vai ficar ainda mais rico.

Luo Fuli

Eu acho que reduzir a questão para um ano é muito significativo. Porque, para a definição de AGI que eu tenho na minha mente, eu acho que em cinco anos já está realizado. Portanto, se quisermos usar uma palavra para descrever a coisa mais importante na jornada da AGI no próximo ano, eu acho que será a autoevolução.

Embora esta palavra seja um conceito um pouco fantasioso, eu acho que nos últimos anos as pessoas também mencionaram isto muitas vezes; porém, só recentemente é que eu tive uma compreensão mais profunda dessa ideia. Ou, mais concretamente, como é que se faz essa autoevolução — precisa existir um plano mais prático e operacional.

O motivo de facto está no facto de, com o apoio de modelos muito fortes, antes, no paradigma de chat, não tínhamos conseguido libertar o limite superior do modelo pré-treinado. Esse limite superior agora é ativado pela framework de agentes. Neste momento, quando tocamos em tarefas que duram mais tempo, percebemos que este modelo consegue aprender e evoluir por si. Uma tentativa muito simples é: no framework de agentes existente, acrescentar uma condição de “verificação” (verify), limitar isso, e depois definir um loop para que o modelo não pare, e continue iterando e otimizando o objetivo. Aí percebemos que o modelo consegue produzir melhores soluções. Se esta autoevolução puder continuar, então, neste momento, os modelos na China já conseguem rodar um a dois dias.

Portanto, a partir da minha perspetiva, eu acho que a autoevolução é um único lugar que pode criar algo novo. Ela não é para substituir a nossa capacidade produtiva humana; é, sim, como fazem os melhores cientistas, para explorar algo que não existe neste mundo.

Na verdade, há um ano atrás eu achava que esta trajetória de tempo esticaria para 3 a 5 anos. Mas recentemente eu sinto que a trajetória de tempo deve encolher para os últimos 1 a 2 anos. Assim, podemos sobrepor aos modelos uma framework de agentes de autoevolução muito forte, permitindo pelo menos uma aceleração exponencial para a investigação científica.

Porque eu tenho percebido recentemente que os colegas do nosso grupo que fazem investigação sobre modelos de grande escala têm, na prática, um workflow muito incerto e altamente criativo. E, na prática, descobrimos que, com o apoio do Claude Code e com modelos de nível muito top, conseguimos acelerar a eficiência da nossa própria investigação em quase 10 vezes. Então eu estou muito esperançosa que este método possa irradiar para áreas ainda mais amplas — disciplinas e domínios — e eu acho que a autoevolução é extremamente importante.

Xia Lixue

A minha palavra-chave é “token sustentável”. Porque também vimos que o desenvolvimento de toda a IA ainda está num processo longo e contínuo, e nós esperamos que tenha uma vida longa e capacidade de continuar.

Do ponto de vista de infraestruturas, o grande problema que vemos é que os nossos recursos no fim são limitados. A questão é se, enquanto “fábrica de tokens”, nós conseguimos fornecer de forma contínua, estável e em grande escala tokens que possam ser usados de forma constante, para que os modelos de ponta consigam continuar a servir mais camadas a jusante. Esta é uma questão muito importante para nós. Por isso, agora também precisamos ampliar a perspetiva para o ecossistema que foi mencionado agora: a cadeia que começa do início na energia para a capacidade computacional, depois para tokens, e por fim para algo como PIB (GDP). É um ciclo de iteração económico e sustentável.

Incluindo: nós não estamos apenas a usar várias capacidades computacionais dentro do país, mas também a exportar essas capacidades para o exterior, para que os recursos globais possam ser ligados e integrados. Por isso, eu também acredito que “sustentável” significa construir a nossa economia de tokens com características chinesas. Porque na era anterior, o conceito era “made in china”: nós descobrimos que conseguíamos transformar as capacidades de manufatura de baixo custo da China em bons produtos exportados para o mundo. O que nós queremos fazer agora é um pouco como “AI made in china”: conseguir transformar as vantagens da China em termos de energia, por meio de fábricas de tokens sustentáveis, em tokens de alta qualidade exportados para o mundo. Tornar-se numa fábrica global de tokens — este é o valor que eu quero ver neste ano que a China traga ao mundo no campo da inteligência artificial.

Zhang Peng

Vou ser breve. Toda a gente pode estar a olhar para o céu estrelado, eu vou aterrizar. Eu acho que a palavra-chave para o maior problema que os próximos 12 meses vão enfrentar é capacidade computacional (compute). Porque há pouco também foi dito: todas estas tecnologias, incluindo a framework de agentes, dão a muitas pessoas uma boa criatividade e uma melhoria de eficiência de 10 vezes. Mas o pré-requisito é que as pessoas consigam usá-las.

Se, por falta de capacidade computacional, você não consegue que uma resposta seja dada a uma pergunta depois de a pessoa pensar por meio dia, isso definitivamente não funciona. Por isso, até os progressos de pesquisa — e muitas coisas que as pessoas querem fazer — ficam bloqueados.

Eu lembro-me que nos dois últimos anos, o académico Yaqin (deve ser) — talvez tenha dito algo no Fórum Zhongguancun — “sem travas não há sentimento; falar de travas machuca o sentimento”. Eu acho que hoje chegamos de novo a esse ponto, mas a situação é diferente. Talvez estejamos de novo na fase de inferência. Virar para a fase de inferência é porque a procura está mesmo a explodir, com explosão de 10x e 100x. E como você disse, no passado a procura era 100x. Então o que fazemos com a grande quantidade de procura que ainda não foi atendida? Temos de pensar em conjunto.

(Editor: Wang Zhiqiang HF013)

     【Aviso Legal】Este artigo representa apenas as opiniões do próprio autor, e não está relacionado com a Hexun. O site Hexun mantém neutralidade em relação às declarações, pontos de vista e julgamentos apresentados no texto, e não oferece qualquer garantia explícita ou implícita quanto à exatidão, fiabilidade ou integralidade do conteúdo incluído. Os leitores devem consultar apenas como referência e assumir integralmente a sua própria responsabilidade. Email: news_center@staff.hexun.com
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar