A era da inferência de IA realmente chegou? A reconstrução do poder de processamento com GPU, CPU e ASIC

22 de junho de 2026, o setor de chips das ações americanas teve uma alta generalizada — o índice de semicondutores de Filadélfia subiu 6,42% em um único dia, a Intel subiu mais de 10% devido à notícia de parceria com a Apple na produção de chips, ADR da TSMC subiu 6,94%, encerrando a 462,12 dólares, e a Nvidia subiu quase 3%.
Por trás do sentimento de mercado, há uma avaliação setorial que está se acelerando na sua realização: a demanda por poder de processamento de IA mudou de uma estrutura de treinamento para uma de inferência.

Segundo análises do setor, a inferência representa cerca de um terço da demanda total de poder de processamento de IA em 2023, subindo para dois terços em 2026, e deve atingir entre 70% e 85% entre 2028 e 2030.
Essa mudança estrutural está redesenhando o principal campo de disputa entre chips — de “quem treina GPU mais rápido” para “quem tem menor custo total de inferência e maior throughput”.

O mercado global de chips de inferência de IA deve valer US$ 85,4 bilhões em 2024, crescendo de US$ 105,47 bilhões em 2025 para US$ 570,77 bilhões em 2033, com uma taxa de crescimento anual composta de 23,5% no período de previsão.
Dentre eles, o mercado de chips de inferência de IA na nuvem deve valer US$ 102,19 bilhões em 2025, crescendo para US$ 118,9 bilhões em 2026, podendo alcançar US$ 320,98 bilhões até 2032.
Ao mesmo tempo, o mercado global de conjuntos de chips de IA de borda (inferência e treinamento combinados) deve crescer de US$ 34,4 bilhões em 2026 para US$ 96 bilhões em 2031.

Nesse ciclo de expansão, a comparação de forças entre os tipos de chips está passando por mudanças sutis e profundas.
GPU ainda é o maior participante de mercado, sustentada por demandas de treinamento e inferência, com expectativa de manter uma taxa de crescimento anual composta de 20% até 2031.
Por outro lado, os ASICs de IA são considerados por várias instituições como o segmento de crescimento mais rápido.
Analistas do Morgan Stanley estimam que o mercado de ASICs de IA digital atingirá cerca de US$ 60 a 70 bilhões até 2026, mantendo uma taxa de crescimento composta de mais de 40% a 50% nos próximos anos.

Mais interessante ainda é o retorno do CPU.
Nos últimos três anos, o CPU esteve marginalizado na narrativa de IA, mas a explosão na demanda por inferência está mudando esse cenário.

Por que o CPU está voltando ao centro do palco

A inferência e o treinamento de IA diferem fundamentalmente em lógica de cálculo.
O treinamento é um processo de operações matriciais em larga escala — dezenas de trilhões de operações de ponto flutuante podem ser realizadas simultaneamente em dezenas de milhares de núcleos de GPU, uma vantagem absoluta das GPUs.
Por outro lado, a inferência, especialmente a de IA agentic (agente), envolve orquestração de tarefas, chamadas de ferramentas, julgamentos lógicos múltiplos e decisões sequenciais.
Esses workloads não são apenas paralelos puros, dependem fortemente do controle lógico complexo e do processamento serial que o CPU faz melhor.

Um estudo do Georgia Tech com Intel aponta que, em cenários de IA agentic, de 50% a 90% da latência vem do CPU, não do chip de processamento — porque modelos grandes precisam chamar plugins, fazer buscas na internet, processar múltiplos passos lógicos, tudo sob coordenação do CPU.
A própria Nvidia reconheceu isso em março de 2026: seu executivo Dion Harris afirmou publicamente que “o CPU está se tornando o gargalo no fluxo de trabalho de IA” — vindo de uma empresa que acredita que “GPU é o único chip necessário para IA”.

A mudança na proporção de configuração ilustra bem essa tendência.
Na fase de treinamento de IA, a proporção entre CPU e GPU costuma ser extremada, como 1:8, com a GPU suportando a maior parte da carga de cálculo.
Na era da inferência, segundo relatório da TrendForce, essa proporção está se aproximando rapidamente de 1:1 a 1:2.
O CEO da Intel, Chen Lihua, afirmou na teleconferência de resultados do primeiro trimestre de 2026 que, normalmente, uma carga de treinamento exige 7 a 8 GPUs por CPU, enquanto a inferência já se ajustou para 3 a 4 GPUs por CPU, com potencial de chegar a um equilíbrio de 1:1 no futuro.

Tomando como referência a estimativa do CEO da Nvidia, Jensen Huang: cada GW de data center precisa de aproximadamente 300 mil GPUs Rubin, e, considerando cada CPU ARM com 136 núcleos, cada GW de data center precisa de cerca de 221 mil CPUs, com uma nova proporção CPU/GPU de aproximadamente 1:1,4.
Essa relação, em comparação com a época de domínio das GPUs, mostra uma elevação significativa do papel do CPU.

A vantagem competitiva das GPUs e os desafios do cenário de inferência

Apesar do avanço do CPU, as GPUs continuam sendo essenciais na inferência de IA, principalmente por sua largura de banda de memória e throughput paralelo.

No processo de inferência de LLM, gerar cada token exige ler bilhões a centenas de bilhões de parâmetros — uma tarefa tipicamente intensiva em memória.
O sistema baseado em CPU depende de memória DDR, com largura de banda na faixa de 50 a 100 GB/s;
as GPUs usam GDDR6X ou HBM, com largura de banda acima de 800 GB/s, chegando a 1,5 TB/s em modelos de ponta, 20 vezes maior que a do CPU.
Na inferência do modelo Llama 3.1 8B, uma solução CPU atinge apenas 819 tokens por segundo, enquanto um cluster de 8 GPUs chega a 46.841 tokens por segundo.
Quando há aumento de requisições simultâneas, a performance do CPU cai de 819 para 257 tokens por segundo, enquanto o cluster de GPUs de 8 unidades praticamente não sofre degradação.

Em termos de densidade de poder de processamento, as GPUs, com milhares de núcleos CUDA, suportam formatos de baixa precisão como FP4/FP8, atingindo centenas de TFLOPS, enquanto CPUs geralmente oferecem entre 1 e 10 TFLOPS em FP32.

Esses dados mostram que, em cenários de alta taxa de throughput e alta concorrência — como serviços de IA na nuvem para grande volume de usuários — as GPUs continuam sendo a melhor solução.
A Nvidia mantém sua liderança nesse setor, com dados da SemiAnalysis indicando que, no primeiro trimestre de 2026, sua participação no mercado de chips de treinamento de IA era de 92%, e na inferência, de 78%.
A IDC estima que a Nvidia controla cerca de 81% do mercado de chips de IA.
O mercado de aceleradores de IA deve atingir cerca de US$ 160 bilhões em 2025, crescendo para mais de US$ 200 bilhões em 2026, com a inferência respondendo por aproximadamente dois terços desse valor.

Porém, há uma pressão crescente sobre a fatia de mercado das GPUs na inferência — por causa do retorno do CPU, da competição com ASICs especializados e de considerações de custo.

A contra-ofensiva dos fabricantes de CPU na inferência

A reavaliação do valor do CPU na inferência já se traduz em uma força de mercado quantificável.

O mercado de processadores para data centers está crescendo rapidamente, impulsionado pelo aumento na demanda por cargas de trabalho de IA generativa, com previsão de expansão de US$ 215 bilhões em 2025 para US$ 656 bilhões em 2031.
A China Securities aponta que os data centers de grande escala estão em “ciclo de atualização”, com expectativa de aumento de 25% nas remessas de CPUs de servidores em 2026.

A AMD é uma das principais beneficiadas dessa tendência.
A demanda por servidores de IA impulsionou as remessas de CPUs EPYC, com a quinta geração Turin já conquistando uma fatia significativa do mercado de CPUs de servidores, e a previsão é de pelo menos 50% de crescimento em 2026.
Analistas da Bernstein estimam que as vendas de CPUs EPYC da AMD podem subir 30% em 2026.
No mercado de CPUs para data centers, até o início de 2026, a Intel detém cerca de 60% de participação, a AMD cerca de 24%, e a Nvidia cerca de 6%.
A AMD também compete com a Nvidia no mercado de aceleradores de IA com sua linha Instinct, criando uma posição única na era da inferência.

A Intel também está ajustando sua estratégia.
Na Computex de junho de 2026, o novo CEO da Intel, Chen Lihua, anunciou com a arquitetura de processo 18A e uma abordagem de desacoplamento de rack que a era da inferência coloca o CPU de volta ao centro, mudando o paradigma de “comprar tudo” para “montar com Lego”.
O processador Xeon da Intel inclui a tecnologia avançada de matriz expandida (AMX), que pode acelerar a inferência de grandes modelos de linguagem de médio a grande porte sem a necessidade de GPUs ou aceleradores adicionais.

A mudança mais simbólica vem da própria Nvidia.
A gigante que definiu a era da IA com GPUs lançou em 2026 as linhas de CPU Grace e Vera, sendo que a Vera foi projetada especificamente para inferência e IA agentic.
A Nvidia estima que, em 2026, sua receita de CPUs atingirá US$ 20 bilhões.
A Nvidia e a Arm também lançaram produtos de CPU independentes em 2026, marcando sua entrada oficial na corrida de CPUs.

ASICs e chips dedicados: o surgimento de uma terceira via

Fora do binômio GPU e CPU, os ASICs (Circuitos Integrados de Uso Específico) estão se tornando a variável de crescimento mais rápido na inferência.

A TD Cowen prevê que a participação de aceleradores comerciais cairá de cerca de 91% em 2025 para aproximadamente 75% em 2030, enquanto os ASICs customizados subirão de 9% para cerca de 25%.
As remessas de servidores com ASICs devem crescer 44,6% em 2026, enquanto as de GPUs crescem 16,1%, apenas um terço do crescimento dos ASICs.

Grandes provedores de nuvem estão acelerando o desenvolvimento interno de chips de inferência.
TPUs do Google, Inferentia da AWS, MTIA do Meta e LPU (Language Processing Unit) da Groq, todos otimizados para inferência, estão surgindo rapidamente.
A Broadcom, no segundo trimestre de 2026, reportou US$ 10,8 bilhões em receita de IA, crescimento de 143%, com previsão de US$ 56 bilhões ao longo do ano, aumento de 180%.
A empresa estima que controlará cerca de 60% do mercado de chips de IA customizados.

Essa tendência indica que o mercado de chips de inferência está evoluindo de uma dominância de GPUs para uma configuração mais diversificada de “GPU + CPU + ASIC”.
GPUs continuam responsáveis por treinamento intensivo e grandes volumes de inferência, CPUs por orquestração e controle de sistema, e ASICs por eficiência máxima em cargas específicas de inferência.

A reconfiguração da estrutura de custos e a economia da inferência

A escolha de chips na inferência sempre volta a uma questão central: qual o custo por milhão de tokens?

No treinamento, a precisão do modelo e o tempo de treinamento são prioridades, com maior tolerância a custos.
Na inferência, trata-se de uma atividade contínua, de alta frequência — cada chamada de API, cada requisição de usuário gera custos diretos.
Assim, a competição por chips de inferência migra de “desempenho absoluto” para “eficiência de throughput por custo”.

Os sistemas baseados em GPU têm custos de hardware mais elevados.
Por exemplo, o AMD MI300X custa cerca de US$ 10 mil a US$ 15 mil, enquanto o Nvidia H100 fica entre US$ 25 mil e US$ 40 mil.
Porém, o custo por unidade de capacidade de cálculo é menor — uma instância na nuvem com GPU gera, por exemplo, entre 40% a 60% de tokens a um custo menor que uma instância com CPU.
A vantagem do CPU está na ausência de hardware adicional, sendo mais adequado para tarefas de baixa concorrência e baixa latência.

Por outro lado, à medida que a escala de inferência aumenta, os custos marginais do CPU sobem mais rapidamente — com aumento de requisições simultâneas, o CPU precisa fazer escalonamento por fatias de tempo, com overhead de troca de contexto que cresce exponencialmente com a concorrência.
Isso faz com que, em implantações de larga escala, o investimento inicial mais alto em GPUs ou ASICs seja compensado por maior throughput e menor custo unitário ao longo do tempo.

Conclusão

A mudança do peso da inferência de um terço para dois terços do processamento de IA revela uma transformação profunda na lógica de competição do setor de chips.
Para a Nvidia, sua vantagem absoluta no mercado de treinamento (cerca de 90%) deve permanecer, mas a competição na inferência será mais acirrada.
A New Street Research faz uma previsão mais agressiva: até 2028, a Nvidia pode perder participação de 20% a 30% na inferência.
Mesmo uma previsão conservadora, como a da Bloomberg Intelligence, que estima que a Nvidia manterá de 70% a 75% do mercado até 2030, já confirma que a quantidade de chips de ASIC em crescimento supera a de GPUs.

Para AMD e Intel, a retomada da demanda por CPUs na inferência representa uma oportunidade estrutural.
A AMD, com sua estratégia dupla de EPYC CPU e Instinct GPU, e a Intel, com a evolução contínua do processador Xeon com tecnologia 18A, tentam aproveitar essa janela.

Para provedores de nuvem e desenvolvedores de IA, a variedade de opções de chips significa maior potencial de otimização de custos.
De GPUs genéricas a ASICs customizados, de inferência baseada em CPU a aceleração por GPU, a escolha de hardware dependerá cada vez mais das características específicas de cada workload — tamanho do modelo, requisitos de latência, volume de requisições, orçamento.

A demanda por poder de processamento de inferência está crescendo a uma velocidade superior à do treinamento.
Essa mudança de foco de treinamento para inferência está remodelando toda a cadeia produtiva, do design de chips à arquitetura de data centers.
GPU não perderá seu lugar, mas também não será mais a única resposta.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado