De infraestruturas elétricas à economia de tokens: a «sete camadas do bolo» da cadeia da indústria de IA

Título original: De Infraestruturas de Energia a Token Economy: O «Sete Camadas de Bolo» da Cadeia de Indústria de AI

Autor original:律动BlockBeats

Fonte original:

Reprodução: Mars Finance

A força motriz da era AI, já mudou de modelos para Tokens

Nos últimos dois anos, a narrativa principal da primeira metade da indústria de AI girou em torno da «Guerra dos Grandes Modelos» iniciada pelas grandes empresas. O número de parâmetros passou de centenas de bilhões para trilhões, os custos de treino subiram de dezenas de milhões de dólares para centenas de milhões, e os clusters de GPU expandiram-se de algumas milhares para dezenas de milhares de cartões. Todos discutiam qual modelo era mais forte, qual se aproximava mais da AGI, como se o objetivo final da competição de AI fosse apenas o desempenho dos grandes modelos em si.

E agora, em 2026, a lógica de impulso da indústria de AI mudou. O mais recente relatório do JPMorgan afirma que, no futuro, o que realmente impulsionará a expansão contínua da infraestrutura de AI não será mais o treino de modelos, mas a demanda massiva por inferência de AI. O consumo de poder de processamento mais intenso no futuro não será mais apenas o treino de grandes modelos, mas os Agentes de AI espalhados globalmente. Cada chamada, cada interação, cada execução de tarefa, essencialmente consome Tokens. A indústria de AI está passando da «Era dos Modelos» para a «Era Industrial do Token».

Pois, no futuro, o que realmente fará a máquina do mundo AI funcionar não será apenas o modelo em si, mas o sistema de produção, distribuição, orquestração e consumo em torno do Token. Especialmente após o início em larga escala dos Agentes de AI, como os Tokens serão gerados em tempo real, distribuídos entre regiões, orquestrados dinamicamente e consumidos de forma eficiente, tornar-se-á a questão mais central da nova fase da indústria de AI.

Como recentemente sugerido por Huang Renxun, AI não é apenas uma indústria de software simples, mas uma infraestrutura fundamental semelhante à energia elétrica e à internet. Em sua arquitetura de «cinco camadas», a indústria de AI é dividida em: energia, chips, infraestrutura, modelos e aplicações. E, à medida que a indústria de AI evolui do «Era do Treinamento» para o «Era da Inferência», a GoodVision AI prefere entender toda a cadeia econômica de AI como uma «estrutura de sete camadas» operando em torno do Token:

Primeira camada: Energia — a base energética da era AI
Segunda camada: AIDC — Fábrica de Tokens
Terceira camada: GPU — Equipamento de produção de Tokens
Quarta camada: LLM — Motor de produção de Tokens
Quinta camada: Distribuição de Tokens — a «rede elétrica» da era AI
Sexta camada: Otimização e orquestração inteligente de Tokens — o cérebro da era AI
Sétima camada: Agente de AI — terminal de consumo de Tokens

De energia, GPU, até AIDC, nós, nós de borda, inferência de modelos e orquestração inteligente, a indústria de AI está formando um sistema de «indústria de Tokens» sem precedentes.

Porém, neste momento, esse sistema ainda está longe de ser maduro.

Há quem possua GPUs de última geração, mas seja limitado por energia; quem constrói grandes AIDC, mas carece de orquestração eficiente; quem desenvolve poderosos Agentes de AI, mas enfrenta custos elevados de inferência e latência; quem controla nós de borda, mas não consegue formar uma rede unificada e colaborativa. Embora toda a cadeia de indústria esteja crescendo rapidamente, ainda há muitas fragmentações, redundâncias e gargalos de eficiência entre as camadas.

E somente quando essas sete camadas de infraestrutura forem realmente conectadas, colaborando e operando em sinergia, a indústria de AI poderá passar do «Era das Ferramentas» para a «Era de Adoção em Grande Escala do Mundo Inteligente».

Primeira camada do bolo: Energia — a base energética da era AI

A Revolução Industrial lutava por carvão e petróleo, a era da internet lutava por tráfego e servidores, e na era AI, a guerra mais fundamental está voltando para a energia.

Pois, o que a AI consome no final das contas é eletricidade. O consumo de energia de um grande centro de dados de AI já se aproxima de uma cidade de porte médio. Em todo o mundo, novos AIDC (Centros de Dados de AI) enfrentam o mesmo problema: podem comprar GPUs, podem construir terrenos, mas a oferta de energia não acompanha, e a rede elétrica também não consegue se ajustar rapidamente.

Por isso, cada vez mais empresas de AI estão voltando sua atenção para infraestrutura energética. Na GTC 2026, Huang Renxun chegou a definir os futuros data centers como «Fábricas de Tokens». Sua fábrica no topo da cadeia gerará uma superindústria de energia.

No mercado chinês, empresas como Yangtze Power, China Nuclear Power, China General Nuclear, Three Gorges Energy, Longyuan Power, Huadian New Energy representam os principais setores energéticos: hidroelétrico, nuclear, eólico e fotovoltaico. Entre eles, nuclear e hidroelétrico, com sua estabilidade de fornecimento, tornam-se as fontes de energia mais importantes para os AIDC; enquanto eólica e solar se beneficiam do aumento na demanda por energia verde e ESG. Com o avanço do «East Data West Computing» e a construção de grandes centros de dados de AI, a sinergia entre bases de energia renovável e centros de computação está se fortalecendo rapidamente.

Nos EUA, gigantes tradicionais como NextEra Energy, Dominion Energy, Duke Energy, Southern Co., Exelon também se beneficiam da expansão de centros de dados de AI. NextEra lidera o mercado de energia verde na América do Norte; Dominion controla recursos essenciais de transmissão na «Corredor de Dados de Northern Virginia»; Exelon, com sua energia nuclear estável, torna-se um beneficiário importante da demanda por «energia de alta estabilidade 24/7» na era AI. Globalmente, o setor de energia está evoluindo de uma utilidade pública tradicional para uma camada de recursos essenciais na infraestrutura de AI.

De modo geral, o cenário competitivo nesta camada está mudando de uma «competição de preços de energia» entre empresas tradicionais de energia para uma «competição por direitos de fornecimento de energia» entre centros de dados de AI, provedores de nuvem e empresas de energia. Quem conseguir garantir energia estável, de longo prazo e de baixo custo, terá a primeira joia de produção de Tokens.

Segunda camada do bolo: AIDC — Fábrica de Matérias-Primas de Tokens

Uma GPU isolada não faz sentido; o que importa é a escala de clusters. Assim surgiu a AIDC.

Ela funciona como as fábricas de aço, usinas de energia e linhas de montagem da era industrial, concentrando milhares de GPUs para formar uma capacidade estável de produção de Tokens. Mas também surgem problemas: construções tradicionais de AIDC geralmente levam de 18 a 36 meses, e a expansão da rede elétrica pode levar ainda mais tempo. Quando a demanda por AI cresce exponencialmente, a velocidade de construção dos antigos centros de dados já não consegue atender à nova economia de Tokens.

Nos EUA, a Equinix é uma das maiores operadoras de data centers do mundo, com mais de 240 centros em mais de 30 países. Sua vantagem central não é apenas o número de instalações, mas a capacidade de interconexão global e rede de baixa latência, tornando-se um nó fundamental na implantação de poder computacional de AI.

A Digital Realty, por sua vez, através da plataforma PlatformDIGITAL, entra no mercado de infraestrutura de AI, atendendo grandes provedores de nuvem e instituições financeiras.

No mercado chinês, a Runze Technology é uma das operadoras de AIDC mais representativas. Sua principal atividade vem evoluindo de centros tradicionais de IDC para centros de computação de AI, com vantagem competitiva em grandes instalações, recursos energéticos e operações de AIDC. Empresas como Aofei Data e Capital Online continuam expandindo suas operações em centros regionais, infraestrutura de nuvem e hospedagem de poder de AI. Sugon, da Universidade de Hefei, foca em parcerias com setores governamentais e de pesquisa na área de AIDC.

Outro grupo de players vem da «transição de mineração». CoreWeave, IREN, Applied Digital, Cipher Mining, entre outros, originalmente ligados à mineração de criptomoedas, rapidamente migraram para infraestrutura de computação de AI devido ao aumento explosivo na demanda por GPUs de AI. IREN aposta em «energia verde + poder de AI», construindo data centers de alta densidade com energia renovável. Applied Digital e Cipher Mining também estão se transformando de operações de mineração tradicionais para infraestrutura de computação de alto desempenho para AI.

Além disso, uma nova tendência surge com a «fábrica de AI modular, de pequeno porte e de borda». Assim como na internet, onde a computação migrou de grandes mainframes para a nuvem, a capacidade de AI está se espalhando de centros gigantes para nós de borda regionais.

Por isso, a GoodVision AI escolheu um caminho diferente: construir fábricas de AI mais leves, modulares e de rápida replicação. Em comparação às tradicionais AIDC de grande porte, a GoodVision AI enfatiza a implantação regional, alta eficiência de clusters de GPU e a integração de energia e computação.

Seu foco não é construir um único centro de dados gigante, mas implantar rapidamente nós de fábrica de AI em regiões densamente povoadas, geralmente com 2-4MW de capacidade de inferência. Esse modelo permite acesso mais rápido aos recursos energéticos locais e é mais adequado à tendência de expansão da inferência de AI para a borda.

Se as AIDC tradicionais se assemelham às grandes fábricas de aço da era industrial, a «fábrica de tokens» da GoodVision AI é mais parecida com uma «fábrica regional de tokens» na era AI — mais leve, flexível, próxima do usuário e mais adequada ao futuro de redes distribuídas de inferência global.

Terceira camada do bolo: GPU — Equipamento de produção de Tokens

Se energia é a fonte, então a GPU é o equipamento de produção. Nos primeiros anos do boom de AI, as GPUs eram usadas principalmente para treino; mas no futuro, a maior demanda virá da inferência. Pois, enquanto o treino é feito por algumas poucas empresas líderes, a inferência se infiltrará em cada aplicação, dispositivo e terminal. Robôs precisam inferir, veículos autônomos precisam inferir, óculos de AI precisam inferir, e até a colaboração entre Agentes de AI em tempo real também consome Tokens.

A NVIDIA ainda é o núcleo absoluto da indústria de chips de AI global. Seus produtos como H100, B200, Blackwell definem quase todos os padrões atuais de treino e inferência de AI. Mais importante, a NVIDIA não vende apenas chips, mas constrói um ecossistema completo com CUDA, TensorRT, DGX, HGX, tornando-se uma concorrente que desafia não só o desempenho de GPU, mas também todo o ecossistema de software de AI.

AMD é atualmente o maior desafiante de GPU, com produtos como MI300X e outros GPUs de AI. Em comparação à NVIDIA, a AMD enfatiza um ecossistema aberto e a plataforma de software ROCm, tentando atrair desenvolvedores e clientes corporativos com maior abertura.

Broadcom e Marvell representam uma rota alternativa — ASICs e interconexões de alta velocidade. Com a complexidade crescente dos cenários de inferência, mais empresas tentam criar chips ASIC personalizados para obter maior eficiência energética e menor custo.

A Intel, por sua vez, tenta entrar no mercado de AI com CPUs de servidores e aceleradores Gaudi, buscando reentrar na competição de infraestrutura de AI apoiando-se em seu ecossistema de CPUs.

No mercado chinês, Cambricon é uma das empresas mais representativas de chips de AI nacionais, com a série SiYuan e seu framework de AI Neuware. Hygon, com licença da AMD Zen, foca em DCU e inferência de AI.

Outras empresas chinesas como Moore Threads, Suiyuan Technology, Muxi, Bairen Technology representam a «substituição doméstica» de chips de AI, enfatizando compatibilidade com CUDA e tentando construir clusters de GPU nacionais.

De CUDA a memórias HBM e núcleos Tensor, o núcleo de toda a indústria de AI está na constante melhoria da «eficiência na geração de Tokens por unidade de tempo». Além disso, infraestrutura de GPU e seus componentes — servidores, módulos ópticos, resfriamento líquido, switches — também estão diretamente ligados à eficiência de produção de Tokens.

Esses componentes, embora menos visíveis que a NVIDIA ou empresas como OpenAI, determinam se a infraestrutura de AI pode realmente funcionar. Como na Revolução Industrial, que precisou de locomotivas, ferrovias, redes elétricas e portos, a revolução de AI também não é apenas uma revolução de software. É uma atualização global na cadeia de produção de energia, chips, redes, computação em nuvem e infraestrutura.

A Vertiv é líder mundial em UPS e gestão de energia para data centers, fornecendo energia, distribuição em racks e sistemas de ar condicionado de precisão.

A InvenSense é líder em sistemas de resfriamento líquido e controle de temperatura na China, atendendo grandes empresas de internet como BAT. Com o aumento do consumo de energia dos GPUs, o resfriamento líquido está se tornando padrão essencial em AIDC.

Empresas como Zhongheng Electric, Kehua Data e Kstar são importantes no setor de UPS, sistemas de energia e fornecimento de energia para IDC.

No setor de rede e módulos ópticos, empresas como Zijing Xuchuang, FiberHome e Tenda Communications se beneficiam do aumento explosivo na demanda por comunicação de alta velocidade dentro de clusters de AI.

No segmento de servidores completos, empresas como Dell, HPE, Supermicro, Lenovo e Inspur assumem a montagem e entrega em larga escala de servidores de AI.

Embora essa camada não seja diretamente voltada ao usuário final, ela decide se a infraestrutura de AI pode operar de forma estável. Resfriamento líquido, UPS, módulos ópticos, switches, armazenamento de energia e servidores — como as ferrovias, redes elétricas e portos na Revolução Industrial — estão se tornando os verdadeiros «negócios de venda de ferramentas» no mundo de AI.

Quarta camada do bolo: LLM — Motor de produção de Tokens

Os LLMs (Grandes Modelos de Linguagem) determinam como os Tokens são entendidos, gerados e organizados. Nos últimos dois anos, empresas como OpenAI, Anthropic, Google, Meta, xAI, DeepSeek lideraram a «corrida dos grandes modelos» globalmente. O número de parâmetros passou de centenas de bilhões para trilhões, e as capacidades dos modelos evoluíram de geração de texto para multimodalidade, raciocínio, código, colaboração de agentes e memória de longo prazo.

Porém, à medida que o setor evolui, o mercado começa a perceber que o que realmente importa no futuro não é mais «quem possui o maior modelo», mas «quem consegue rodar modelos de forma mais eficiente e de menor custo continuamente». Pois, o valor não vem do próprio modelo, mas do processo de inferência após múltiplas chamadas ao modelo.

Isso também significa que os LLMs estão evoluindo de uma «demonstração de capacidade» para um «motor de produção de Tokens» na economia de AI.

Modelos fechados e abertos como OpenAI, Anthropic, Google Gemini, Meta Llama disputam a entrada na futura ecologia de AI; enquanto novos players como DeepSeek, com custos menores e maior eficiência de inferência, começam a remodelar o cenário competitivo. A competição na camada de LLMs já não se resume mais ao tamanho do parâmetro, mas a múltiplos critérios de avaliação:

Custo por Token, Eficiência de Inferência, Capacidade de Contexto, Colaboração Multi-Agentes, Memória de Longo Prazo, Sinergia entre Modelo e Infraestrutura

Pois, na era AI, o que realmente importa não é apenas se o grande modelo é «inteligente», mas se ele pode ser executado de forma contínua, em larga escala e a baixo custo globalmente. A GoodVision AI também tem suas próprias soluções de otimização nesta camada: colaborando com fornecedores de grandes modelos, implantando-os em fábricas de AI, passando de aluguel de capacidade computacional para fornecimento direto de Tokens; assim, aumenta a margem de lucro e melhora a experiência do usuário.

Quinta camada do bolo: Distribuição de Tokens — a «rede elétrica» da era AI

Depois de construir o AIDC, surge a próxima questão: como esses recursos computacionais podem ser utilizados globalmente?

Assim, plataformas de aluguel de poder de processamento começaram a surgir. Elas funcionam como a «rede elétrica» da era AI, fragmentando e distribuindo recursos de GPU, alugando-os sob demanda para desenvolvedores, empresas e aplicações de AI.

AWS, Azure, Google Cloud, Alibaba Cloud, Tencent Cloud continuam sendo os maiores players nesta camada. Possuem a maior infraestrutura de nuvem do mundo e estão integrando gradualmente recursos de GPU de AI em seus sistemas IaaS.

Porém, ao mesmo tempo, novas «nuvens nativas de AI» estão emergindo rapidamente. CoreWeave, Nebius, Nscale, entre outras, construíram plataformas de GPU específicas para treinamento e inferência de AI. Em comparação às nuvens tradicionais, são mais flexíveis, focadas em tarefas de AI e mais eficientes na otimização de clusters de GPU.

A CoreWeave é uma das empresas mais representativas do NeoCloud. Inicialmente focada em mineração de Ethereum, ela se transformou completamente em provedora de serviços de GPU para AI, sendo atualmente apoiada por NVIDIA como uma infraestrutura de AI de destaque.

DigitalOcean, Vultr e outras plataformas leves atendem a desenvolvedores de pequeno e médio porte, com ênfase em implantação rápida e baixo custo de GPU.

No mercado chinês, além dos gigantes, empresas como UCloud, Kingsoft Cloud e Capital Online são principais fornecedoras de nuvens de GPU e aluguel de poder de AI. A competição nesta camada é muito parecida com a da rede elétrica nos seus primórdios: como distribuir eficientemente o poder computacional disperso.

Sexta camada do bolo: Otimização e orquestração inteligente de Tokens — o cérebro da era AI

Talvez seja a camada mais subestimada, mas também a mais crucial. Com a explosão do uso de Agentes de AI, percebe-se que nem todas as tarefas valem a pena usar o modelo mais caro. Muitas tarefas simples podem ser feitas por modelos locais; tarefas em tempo real são mais adequadas para inferência na borda; tarefas que envolvem privacidade não podem ser enviadas à nuvem. Além do «disponível de poder de processamento», surge uma nova questão: «como usar esse poder de forma mais inteligente».

Com a demanda por Tokens crescendo exponencialmente, a chave é «fazer com que o modelo adequado, no poder de processamento adequado, realize a tarefa certa». Essa é uma das direções que a GoodVision AI está explorando, além de montar suas fábricas de Tokens de AI.

Assim como no sistema de energia atual: algumas demandas vêm da rede elétrica principal; outras, do painel solar no telhado. O que realmente importa é a camada intermediária — o «sistema inteligente de orquestração».

O futuro da AI será semelhante: tarefas simples feitas por pequenos modelos locais, tarefas complexas por grandes modelos na nuvem, tarefas de alta privacidade na borda, tarefas de alta concorrência por orquestração híbrida em nuvem.

Além da GoodVision AI, empresas como QingCloud, Lambda, OpenRouter, Fireworks AI também lideram na otimização e orquestração inteligente de Tokens.

E essa camada «de bolo» sobrepõe-se bastante às duas anteriores — AIDC e aluguel de poder de processamento. Quando recursos de GPU, nós regionais e escala de inferência aumentam, possuir apenas «poder de processamento» não é mais suficiente para criar uma barreira de longo prazo. Cada vez mais, operadores de AIDC e plataformas de GPU percebem que o que realmente determina eficiência e margem de lucro não é só a quantidade de GPU, mas a capacidade de orquestrar dinamicamente modelos, poder de processamento e fluxo de Tokens.

Por isso, muitas plataformas que já atuam em AIDC e nuvens de GPU estão expandindo para a «camada de orquestração inteligente». Por exemplo, empresas como UCloud, Capital Online e Sugon na China estão tentando integrar suas infraestruturas de GPU, recursos multi-nuvem e capacidades de inferência, evoluindo de «vender poder de processamento» para «otimizar o processamento».

Sétima camada do bolo: Modelos e Agentes — Consumidores de Tokens

Embora seja a camada mais próxima do usuário e a mais fácil de captar tráfego, a competição também é a mais acirrada. Na GTC 2026, Huang Renxun afirmou: «No futuro, toda empresa será um produtor e consumidor de Tokens».

Um Agente de AI pode chamar múltiplos modelos, usar várias ferramentas, APIs, e realizar inferência, planejamento e execução contínuos. Isso significa que, no futuro, o consumo de Tokens por AI será muito maior do que hoje em diálogos humanos com AI. Alguns usuários intensivos de AI já constroem sistemas com múltiplos Agentes em paralelo, que se chamam mutuamente, consumindo bilhões de Tokens por dia.

O futuro não será mais 1 bilhão de pessoas usando AI, mas 10 bilhões, ou até 100 bilhões de Agentes de AI trabalhando simultaneamente, trocando chamadas. E o gargalo real mudará de «capacidade do modelo» para «eficiência na orquestração de Tokens».

Gigantes tecnológicos, como Microsoft, Google, Meta, Amazon, estão integrando capacidades de AI em seus produtos — sistemas de escritório, buscas, redes sociais e nuvem.

Empresas de software empresarial como Adobe, Salesforce, ServiceNow, Palantir avançam rapidamente na direção de Agentes de AI corporativos e automação de fluxos de trabalho. Ao mesmo tempo, a Hugging Face está se tornando a «Github» da era AI, sendo uma comunidade de modelos e uma infraestrutura fundamental para o ecossistema global de desenvolvimento de AI.

No mercado chinês, empresas como iFlytek, Kunlun Wanshi, 360, Kingsoft Office e SenseTime estão focadas em assistentes de AI, escritórios inteligentes e Agentes de AI.

Quando o «sete camadas de bolo» estiver realmente formado, o mundo de AI começará de fato

Hoje, a indústria de AI ainda está em uma infraestrutura que não está totalmente madura.

Há quem possua GPUs de ponta, mas seja limitado por energia; quem constrói grandes AIDC, mas carece de orquestração eficiente; quem desenvolve modelos e Agentes poderosos, mas enfrenta custos altos de inferência e latência; quem controla nós de borda, mas não consegue formar uma rede unificada e colaborativa.

De energia, AIDC, GPU, até LLM, distribuição de Tokens, orquestração inteligente e Agentes de AI, toda a cadeia de indústria de AI, embora em rápido crescimento, ainda apresenta fragmentações, redundâncias e gargalos de eficiência.

E somente quando essa «estrutura de sete camadas» estiver completa e operando de forma colaborativa e eficiente, a indústria de AI poderá passar do «Era das Ferramentas» para a «Era de Adoção em Massa do Mundo Inteligente».

O futuro do mundo AI não será mais apenas algumas grandes empresas treinando grandes modelos, mas bilhões de Agentes de AI continuamente online, colaborando, chamando recursos e Tokens. Cada diálogo, raciocínio, chamada de ferramenta ou execução automática de tarefas será sustentada por uma sinergia de energia, GPU, rede, orquestração e nós de inferência.

E isso também significa que a indústria de AI está evoluindo de uma «lógica de software» para um super sistema industrial que cobre energia, chips, computação em nuvem, redes de borda e orquestração inteligente.

Assim como a Revolução Industrial precisou de locomotivas, ferrovias, redes elétricas e portos, a revolução da internet precisou de PCs, fibras ópticas, data centers e nuvem, a revolução de AI não será apenas uma revolução de software. É uma atualização global na cadeia de produção de energia, chips, redes, computação em nuvem e infraestrutura.

A Vertiv é líder mundial em UPS e gestão de energia para data centers, fornecendo energia, distribuição em racks e sistemas de ar condicionado de precisão.

A InvenSense lidera na China em sistemas de resfriamento líquido e controle de temperatura, atendendo grandes empresas de internet como BAT. Com o aumento do consumo de energia dos GPUs, o resfriamento líquido está se tornando padrão essencial em AIDC.

Empresas como Zhongheng Electric, Kehua Data e Kstar desempenham papéis importantes em UPS, sistemas de energia e fornecimento de energia para IDC.

No setor de rede e módulos ópticos, empresas como Zijing Xuchuang, FiberHome e Tenda Communications se beneficiam do crescimento explosivo na demanda por comunicação de alta velocidade dentro de clusters de AI.

No segmento de servidores completos, Dell, HPE, Supermicro, Lenovo e Inspur assumem a montagem e entrega em larga escala de servidores de AI.

Embora essa camada não seja diretamente voltada ao usuário final, ela decide se a infraestrutura de AI pode operar de forma estável. Resfriamento líquido, UPS, módulos ópticos, switches, armazenamento de energia e servidores — como ferrovias, redes elétricas e portos na Revolução Industrial — estão se tornando os verdadeiros «negócios de venda de ferramentas» no mundo de AI.

Quarta camada do bolo: LLM — Motor de produção de Tokens

Os LLMs (Grandes Modelos de Linguagem) determinam como os Tokens são entendidos, gerados e organizados. Nos últimos dois anos, empresas como OpenAI, Anthropic, Google, Meta, xAI, DeepSeek lideraram a «corrida dos grandes modelos» globalmente. O número de parâmetros passou de centenas de bilhões para trilhões, e as capacidades dos modelos evoluíram de geração de texto para multimodalidade, raciocínio, código, colaboração de agentes e memória de longo prazo.

Porém, à medida que o setor evolui, o mercado começa a perceber que o que realmente importa no futuro não é mais «quem possui o maior modelo», mas «quem consegue rodar modelos de forma mais eficiente e de menor custo continuamente». Pois, o valor não vem do próprio modelo, mas do processo de inferência após múltiplas chamadas ao modelo.

Isso também significa que os LLMs estão evoluindo de uma «demonstração de capacidade» para um «motor de produção de Tokens» na economia de AI.

Modelos fechados e abertos como OpenAI, Anthropic, Google Gemini, Meta Llama disputam a entrada na futura ecologia de AI; enquanto novos players como DeepSeek, com custos menores e maior eficiência de inferência, começam a remodelar o cenário competitivo. A competição na camada de LLMs já não se resume mais ao tamanho do parâmetro, mas a múltiplos critérios de avaliação:

Custo por Token, Eficiência de Inferência, Capacidade de Contexto, Colaboração Multi-Agentes, Memória de Longo Prazo, Sinergia entre Modelo e Infraestrutura

Pois, na era AI, o que realmente importa não é apenas se o grande modelo é «inteligente», mas se ele pode ser executado de forma contínua, em larga escala e a baixo custo globalmente. A GoodVision AI também tem suas próprias soluções de otimização nesta camada: colaborando com fornecedores de grandes modelos, implantando-os em fábricas de Tokens de AI, passando de aluguel de capacidade computacional para fornecimento direto de Tokens; assim, aumenta a margem de lucro e melhora a experiência do usuário.

Quinta camada do bolo: Distribuição de Tokens — a «rede elétrica» da era AI

Depois de construir o AIDC, surge a próxima questão: como esses recursos computacionais podem ser utilizados globalmente?

Assim, plataformas de aluguel de poder de processamento começaram a surgir. Elas funcionam como a «rede elétrica» da era AI, fragmentando e distribuindo recursos de GPU, alugando-os sob demanda para desenvolvedores, empresas e aplicações de AI.

AWS, Azure, Google Cloud, Alibaba Cloud, Tencent Cloud continuam sendo os maiores players nesta camada. Possuem a maior infraestrutura de nuvem do mundo e estão integrando gradualmente recursos de GPU de AI em seus sistemas IaaS.

Porém, ao mesmo tempo, novas «nuvens nativas de AI» estão emergindo rapidamente. CoreWeave, Nebius, Nscale, entre outras, construíram plataformas de GPU específicas para treinamento e inferência de AI. Em comparação às nuvens tradicionais, são mais flexíveis, focadas em tarefas de AI e mais eficientes na otimização de clusters de GPU.

A CoreWeave é uma das empresas mais representativas do NeoCloud. Inicialmente focada em mineração de Ethereum, ela se transformou completamente em provedora de serviços de GPU para AI, sendo atualmente apoiada por NVIDIA como uma infraestrutura de AI de destaque.

DigitalOcean, Vultr e outras plataformas leves atendem a desenvolvedores de pequeno e médio porte, com ênfase em implantação rápida e baixo custo de GPU.

No mercado chinês, além dos gigantes, empresas como UCloud, Kingsoft Cloud e Capital Online são principais fornecedoras de nuvens de GPU e aluguel de poder de AI. A competição nesta camada é muito parecida com a da rede elétrica nos seus primórdios: como distribuir eficientemente o poder computacional disperso.

Sétima camada do bolo: Otimização e orquestração inteligente de Tokens — o cérebro da era AI

Talvez seja a camada mais subestimada, mas também a mais crucial. Com a explosão do uso de Agentes de AI, percebe-se que nem todas as tarefas valem a pena usar o modelo mais caro. Muitas tarefas simples podem ser feitas por modelos locais; tarefas em tempo real são mais adequadas para inferência na borda; tarefas que envolvem privacidade não podem ser enviadas à nuvem. Além do «disponível de poder de processamento», surge uma nova questão: «como usar esse poder de forma mais inteligente».

Com a demanda por Tokens crescendo exponencialmente, a chave é «fazer com que o modelo adequado, no poder de processamento adequado, realize a tarefa certa». Essa é uma das direções que a GoodVision AI está explorando, além de montar suas fábricas de Tokens de AI.

Assim como no sistema de energia atual: algumas demandas vêm da rede elétrica principal; outras, do painel solar no telhado. O que realmente importa é a camada intermediária — o «sistema inteligente de orquestração».

O futuro da AI será semelhante: tarefas simples feitas por pequenos modelos locais, tarefas complexas por grandes modelos na nuvem, tarefas de alta privacidade na borda, tarefas de alta concorrência por orquestração híbrida em nuvem.

Além da GoodVision AI, empresas como QingCloud, Lambda, OpenRouter, Fireworks AI também lideram na otimização e orquestração inteligente de Tokens.

E essa camada «de bolo» sobrepõe-se bastante às duas anteriores — AIDC e aluguel de poder de processamento. Quando recursos de GPU, nós regionais e escala de inferência aumentam, possuir apenas «poder de processamento» não é mais suficiente para criar uma barreira de longo prazo. Cada vez mais, operadores de AIDC e plataformas de GPU percebem que o que realmente determina eficiência e margem de lucro não é só a quantidade de GPU, mas a capacidade de orquestrar dinamicamente modelos, poder de processamento e fluxo de Tokens.

Por isso, muitas plataformas que já atuam em AIDC e nuvens de GPU estão expandindo para a «camada de orquestração inteligente». Por exemplo, empresas como UCloud, Capital Online e Sugon na China estão tentando integrar suas infraestruturas de GPU, recursos multi-nuvem e capacidades de inferência, evoluindo de «vender poder de processamento» para «otimizar o processamento».

Sétima camada do bolo: Modelos e Agentes — Consumidores de Tokens

Embora seja a camada mais próxima do usuário e a mais fácil de captar tráfego, a competição também é a mais acirrada. Na GTC 2026, Huang Renxun afirmou: «No futuro, toda empresa será um produtor e consumidor de Tokens».

Um Agente de AI pode chamar múltiplos modelos, usar várias ferramentas, APIs, e realizar inferência, planejamento e execução contínuos. Isso significa que, no futuro, o consumo de Tokens por AI será muito maior do que hoje em diálogos humanos com AI. Alguns usuários intensivos de AI já constroem sistemas com múltiplos Agentes em paralelo, que se chamam mutuamente, consumindo bilhões de Tokens por dia.

O futuro não será mais 1 bilhão de pessoas usando AI, mas 10 bilhões, ou até 100 bilhões de Agentes de AI trabalhando simultaneamente, trocando chamadas. E o gargalo real mudará de «capacidade do modelo» para «eficiência na orquestração de Tokens».

Gigantes tecnológicos, como Microsoft, Google, Meta, Amazon, estão integrando capacidades de AI em seus produtos — sistemas de escritório, buscas, redes sociais e nuvem.

Empresas de software empresarial como Adobe, Salesforce, ServiceNow, Palantir avançam rapidamente na direção de Agentes de AI corporativos e automação de fluxos de trabalho. Ao mesmo tempo, a Hugging Face está se tornando a «Github» da era AI, sendo uma comunidade de modelos e uma infraestrutura fundamental para o ecossistema global de desenvolvimento de AI.

No mercado chinês, empresas como iFlytek, Kunlun Wanshi, 360, Kingsoft Office e SenseTime estão focadas em assistentes de AI, escritórios inteligentes e Agentes de AI.

Quando o «sete camadas de bolo» estiver realmente formado, o mundo de AI começará de fato

Hoje, a indústria de AI ainda está em uma infraestrutura que não está totalmente madura.

Há quem possua GPUs de ponta, mas seja limitado por energia; quem constrói grandes AIDC, mas carece de orquestração eficiente; quem desenvolve modelos e Agentes poderosos, mas enfrenta custos altos de inferência e latência; quem controla nós de borda, mas não consegue formar uma rede unificada e colaborativa.

De energia, AIDC, GPU, até LLM, distribuição de Tokens, orquestração inteligente e Agentes de AI, toda a cadeia de indústria de AI, embora em rápido crescimento, ainda apresenta fragmentações, redundâncias e gargalos de eficiência.

E somente quando essa «estrutura de sete camadas» estiver completa e operando de forma colaborativa e eficiente, a indústria de AI poderá passar do «Era das Ferramentas» para a «Era de Adoção em Massa do Mundo Inteligente».

O futuro do mundo AI não será mais apenas algumas grandes empresas treinando grandes modelos, mas bilhões de Agentes de AI continuamente online, colaborando, chamando recursos e Tokens. Cada diálogo, raciocínio, chamada de ferramenta ou execução automática de tarefas será sustentada por uma sinergia de energia, GPU, rede, orquestração e nós de inferência.

E isso também significa que a indústria de AI está evoluindo de uma «lógica de software» para um super sistema industrial que cobre energia, chips, computação em nuvem, redes de borda e orquestração inteligente.

Assim como a Revolução Industrial precisou de locomotivas, ferrovias, redes elétricas e portos, a revolução da internet precisou de PCs, fibras ópticas, data centers e nuvem, a revolução de AI não será apenas uma revolução de software. É uma atualização global na cadeia de produção de energia, chips, redes, computação em nuvem e infraestrutura.

A Vertiv é líder mundial em UPS e gestão de energia para data centers, fornecendo energia, distribuição em racks e sistemas de ar condicionado de precisão.

A InvenSense lidera na China em sistemas de resfriamento líquido e controle de temperatura, atendendo grandes empresas de internet como BAT. Com o aumento do consumo de energia dos GPUs, o resfriamento líquido está se tornando padrão essencial em AIDC.

Empresas como Zhongheng Electric, Kehua Data e Kstar desempenham papéis importantes em UPS, sistemas de energia e fornecimento de energia para IDC.

No setor de rede e módulos ópticos, empresas como Zijing Xuchuang, FiberHome e Tenda Communications se beneficiam do crescimento explosivo na demanda por comunicação de alta velocidade dentro de clusters de AI.

No segmento de servidores completos, Dell, HPE, Supermicro, Lenovo e Inspur assumem a montagem e entrega em larga escala de servidores de AI.

Embora essa camada não seja diretamente voltada ao usuário final, ela decide se a infraestrutura de AI pode operar de forma estável. Resfriamento líquido, UPS, módulos ópticos, switches, armazenamento de energia e servidores — como ferrovias, redes elétricas e portos na Revolução Industrial — estão se tornando os verdadeiros «negócios de venda de ferramentas» no mundo de AI.

Quarta camada do bolo: LLM — Motor de produção de Tokens

Os LLMs (Grandes Modelos de Linguagem) determinam como os Tokens são entendidos, gerados e organizados. Nos últimos dois anos, empresas como OpenAI, Anthropic, Google, Meta, xAI, DeepSeek lideraram a «corrida dos grandes modelos» globalmente. O número de parâmetros passou de centenas de bilhões para trilhões, e as capacidades dos modelos evoluíram de geração de texto para multimodalidade, raciocínio, código, colaboração de agentes e memória de longo prazo.

Porém, à medida que o setor evolui, o mercado começa a perceber que o que realmente importa no futuro não é mais «quem possui o maior modelo», mas «quem consegue rodar modelos de forma mais eficiente e de menor custo continuamente». Pois, o valor não vem do próprio modelo, mas do processo de inferência após múltiplas chamadas ao modelo.

Isso também significa que os LLMs estão evoluindo de uma «demonstração de capacidade» para um «motor de produção de Tokens» na economia de AI.

Modelos fechados e abertos como Open

TOKEN-4,23%
SO1,67%
CRWV-4,92%
IREN-3,85%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 12
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
MildlyRugged
· 05-28 10:24
Eletricidade → Poder de processamento → Token, cada camada extrai bastante também.
Ver originalResponder0
GateUser-1c5ab2b5
· 05-26 12:46
Há algum link do relatório do JPMorgan? Quero ver exatamente como eles fizeram as contas.
Ver originalResponder0
PositionLikeACat
· 05-26 06:57
Então, o vencedor final é o país que possui energia elétrica barata?
Ver originalResponder0
ShellsLeftBehindByTheReceding
· 05-26 06:06
De vender pás, a vender Tokens, o modelo de negócio mudou completamente
Ver originalResponder0
GateUser-04e4dac2
· 05-26 05:35
Depois da guerra dos grandes modelos, começa a guerra dos tokens
Ver originalResponder0
FlowingColorfulInkHeart
· 05-26 05:33
Se a economia dos tokens colapsar, o valor dessas empresas de IA precisará ser reavaliado
Ver originalResponder0
PaperSculptureOctopusPosition
· 05-26 05:32
Esta narrativa mudou-se muito rapidamente, no ano passado ainda se falava de AGI e este ano já se discute de modelos económicos.
Ver originalResponder0
SudoSatoshi
· 05-26 05:29
Na camada sete, parece que a camada de aplicação é a mais competitiva, enquanto a infraestrutura tem, na verdade, barreiras.
Ver originalResponder0
WatercolorInAGlassBottle
· 05-26 05:25
A expressão "bolo de sete camadas" é bastante vívida, desde a energia elétrica até a camada de aplicação, cada camada oferece espaço para arbitragem
Ver originalResponder0
FlamingoFrontView
· 05-26 05:22
Qual é a proporção do custo de eletricidade? Esta base do bolo é suficientemente estável?
Ver originalResponder0
Ver mais
  • Fixado