Guojin Securities: AI Agent drives non-linear growth in computing power demand, focus on industrial chain investment opportunities

MaticHoleFiller · 2026-03-24T09:10:03+00:00

A indústria de IA está a passar por uma mudança importante, com Agents de longa duração a substituírem interações de uma única volta, impulsionando incrementos não-lineares na procura de poder computacional. A IA evoluiu de uma ferramenta de perguntas e respostas para um Agent autónomo, com consumo significativo de Tokens aumentando, e a procura de empresas por sistemas multi-Agent disparando. Esta mudança traz requisitos elevados de memória e capacidade de computação, afectando o desenvolvimento tecnológico futuro.

MaticHoleFiller

2026-03-24 09:10:03

Geração de resumo em curso

23 de março, 248 mil estrelas no GitHub, consumo de tokens quadruplicado, crescimento de 1445% nas consultas empresariais — uma série de dados delineia uma mudança crucial na indústria de IA: a transição do paradigma de Prompt para agentes longos já começou. Os dados da plataforma OpenRouter mostram que o raciocínio em múltiplos passos está acelerando a substituição da interação de uma única rodada; testes da Anthropic indicam que o consumo de tokens por um único agente é cerca de 4 vezes maior do que no modo de diálogo, enquanto sistemas de múltiplos agentes chegam a 15 vezes. Com o aumento contínuo do tempo de execução dos agentes, a demanda por poder de processamento está entrando numa nova fase de expansão não linear.

Mudança de paradigma na demanda de computação: de Prompt para agentes longos

O paradigma de interação em inteligência artificial está passando por uma transformação fundamental, com os sistemas de IA evoluindo de ferramentas de perguntas e respostas únicas para agentes autônomos capazes de raciocinar, planejar e operar continuamente. Essa tendência já foi confirmada: os dados da plataforma OpenRouter mostram que o raciocínio em múltiplos passos e chamadas encadeadas de ferramentas estão rapidamente substituindo a interação de uma única rodada. O framework de agentes de código aberto OpenClaw, lançado há apenas quatro meses, atingiu mais de 248 mil estrelas no GitHub, liderando o ranking global de projetos de código aberto, marcando a entrada completa dos agentes de longa duração na fase de implantação em produção. 2) O consumo de tokens pelos agentes já supera em muito o cenário tradicional de perguntas e respostas: testes da Anthropic indicam que um único agente consome cerca de 4 vezes mais tokens do que no modo de diálogo, enquanto sistemas de múltiplos agentes chegam a 15 vezes. A NVIDIA, em seu blog técnico de janeiro de 2026, também destacou que a próxima geração de fábricas de IA deve ser capaz de processar centenas de milhares de tokens de entrada para suportar o raciocínio de agentes com contexto longo. A mudança de paradigma já ocorreu, formando uma nova lógica de crescimento na demanda por poder de processamento.

Crescimento não linear na demanda de poder de processamento impulsionado por agentes longos

Os fatores principais que impulsionam a demanda por poder de processamento de agentes longos incluem: 1) Mecanismos técnicos: primeiramente, o custo de cálculo do mecanismo de atenção própria de grandes modelos cresce quadraticamente com o comprimento do contexto; em segundo lugar, a fase de decodificação do raciocínio é naturalmente limitada pela largura de banda da memória. À medida que o KVCache se expande linearmente com o contexto, a utilização da GPU diminui continuamente, criando gargalos de throughput cada vez maiores. Os principais fabricantes estruturam seus preços com base nos custos físicos, como Google Gemini 3.1 Pro e Alibaba Cloud Qwen, que adotam tarifas escalonadas de acordo com o comprimento do contexto. 2) A ascensão de arquiteturas de múltiplos agentes introduz uma dimensão adicional de custos de comunicação. Dados da Gartner mostram que, de primeiro trimestre de 2024 até o segundo trimestre de 2025, as consultas empresariais a sistemas de múltiplos agentes aumentaram 1445%; estudos do Google DeepMind indicam que a compressão do contexto global entre agentes paralelos gera uma “imposto de coordenação” inevitável, com custos de comunicação crescendo de forma não linear com o número de agentes. 3) A paradoxo de Jevons amplifica ainda mais esses efeitos: o CEO da Microsoft, Satya Nadella, prevê que melhorias na eficiência de raciocínio dos modelos, ao reduzir custos, estimulam um crescimento mais rápido no uso.

De modo geral, o aumento na duração de execução dos agentes é uma tendência tecnológica inevitável. No futuro próximo, a demanda por largura de banda de memória, throughput de interconexão e densidade de computação inteligente continuará a expandir-se de forma não linear.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos