A era da inferência de IA chegou realmente? A reestruturação do poder de processamento com GPU, CPU e ASIC

Question

22 de junho de 2026, o setor de chips das ações norte-americanas registou uma subida generalizada — o índice de semicondutores de Filadélfia subiu 6,42% num único dia, a Intel subiu mais de 10% devido à notícia de colaboração com a Apple na produção de chips, a ADR da TSMC subiu 6,94%, encerrando a 462,12 dólares, e a Nvidia subiu quase 3%. Por trás do sentimento do mercado, está uma avaliação do setor que está a acelerar a sua concretização: a estrutura da procura por capacidade de cálculo de IA passou de ser impulsionada pelo treino para ser impulsionada pela inferência.

Segundo análises do setor, a inferência representa cerca de um terço da procura total de capacidade de IA em 2023, subindo para dois terços em 2026, prevendo-se que atinja entre 70% e 85% entre 2028 e 2030. Esta mudança estrutural está a redefinir o principal campo de competição dos chips — de “quem treina mais rápido o GPU” para “quem tem o menor custo total de inferência, maior throughput e eficiência”.

O mercado global de chips de inferência de IA valia 85,4 mil milhões de dólares em 2024, com previsão de crescer de 105,47 mil milhões em 2025 para 570,77 mil milhões em 2033, com uma taxa de crescimento anual composta de 23,5% durante o período de previsão. Entre eles, o mercado de chips de inferência de IA na nuvem tinha uma avaliação de 102,19 mil milhões de dólares em 2025, prevendo-se que cresça para 118,9 mil milhões em 2026 e possa atingir 320,98 mil milhões em 2032. Paralelamente, o mercado global de conjuntos de chips de IA de borda (inferência e treino combinados) deverá passar de 34,4 mil milhões em 2026 para 96 mil milhões em 2031.

Neste ciclo de expansão, o equilíbrio de poder entre os diferentes tipos de chips está a sofrer mudanças subtis e profundas. Os GPUs continuam a ser os maiores participantes do mercado, sustentados por necessidades de treino e inferência, prevendo-se que mantenham uma taxa de crescimento anual composta de 20% até 2031. Contudo, os ASIC de IA são considerados por várias instituições como o segmento de crescimento mais rápido. Analistas do JPMorgan estimam que o mercado de ASICs de IA digital atingirá cerca de 60 a 70 mil milhões de dólares até 2026, mantendo uma taxa de crescimento composta superior a 40% a 50% nos anos seguintes.

Mais interessante ainda é o regresso do CPU. Nos últimos três anos, o CPU esteve marginalizado na narrativa de IA, mas a explosão na procura por inferência está a alterar esse cenário.

Como o CPU voltou ao centro do palco

A inferência e o treino de IA diferem fundamentalmente na lógica de cálculo. O treino é um processo de operações matriciais em larga escala — dezenas de trilhões de operações de ponto flutuante podem ser realizadas em dezenas de milhares de núcleos GPU simultaneamente, sendo esta a principal vantagem do GPU. Mas a inferência, especialmente a inferência de IA agente (Agentic AI), envolve orquestração de tarefas, chamadas a ferramentas, julgamentos lógicos de múltiplas etapas e decisões sequenciais. Estas cargas de trabalho não são apenas cálculos paralelos puros, dependem fortemente do controlo lógico complexo e do processamento sequencial que o CPU faz melhor.

Um estudo do Georgia Tech com a Intel revelou que, em cenários de IA agente, entre 50% e 90% da latência advém do CPU, não do chip de cálculo — porque modelos grandes precisam de chamar plugins, fazer buscas na internet, processar lógica de múltiplas etapas, tudo sob coordenação do CPU. A Nvidia também reconheceu oficialmente esta realidade em março de 2026: o seu executivo Dion Harris afirmou publicamente que “o CPU está a tornar-se o gargalo no fluxo de trabalho de IA” — vindo de uma empresa que acredita que “o GPU é o único chip necessário para IA”.

A mudança na proporção de configuração entre CPU e GPU ilustra bem esta tendência. Na fase de treino de IA, a proporção CPU:GPU costuma ser de 1:8, com o GPU a suportar a maior parte da carga de cálculo. Mas na era da inferência, segundo um relatório da TrendForce, essa proporção está a aproximar-se rapidamente de 1:1 a 1:2. O CEO da Intel, Pat Gelsinger, afirmou na conferência de resultados do primeiro trimestre de 2026 que normalmente são necessários 7 a 8 GPUs para suportar uma carga de treino, enquanto para inferência a proporção já se ajustou para 3 a 4 GPUs por CPU, com potencial de chegar a um equilíbrio de 1:1 no futuro.

Tomando como referência a estimativa do CEO da Nvidia, Jensen Huang: cada GW de data center requer cerca de 300 mil GPUs Rubin, enquanto que, considerando cada CPU ARM com 136 núcleos, cada GW de data center precisa de aproximadamente 221 mil CPUs, resultando numa nova proporção CPU:GPU de cerca de 1:1,4. Comparado com a era dominada pelos GPUs, a posição do CPU aumentou significativamente.

A vantagem competitiva dos GPUs e os desafios na inferência

Apesar do CPU estar a recuperar terreno, os GPUs continuam a ocupar uma posição insubstituível na inferência de IA, sobretudo devido à largura de banda de memória e ao throughput paralelo.

No processo de inferência de LLM, gerar cada token exige ler centenas de milhões a centenas de bilhões de parâmetros, uma tarefa tipicamente intensiva em memória. A solução CPU depende da memória DDR do sistema, com largura de banda geralmente entre 50 e 100 GB/s; enquanto os GPUs usam GDDR6X ou HBM, com largura de banda superior a 800 GB/s, chegando a 1,5 TB/s em GPUs de topo com HBM2e, sendo 20 vezes maior que a do CPU. Num teste de inferência do modelo Llama 3.1 8B, a solução CPU atinge apenas 819 tokens por segundo, enquanto um cluster de 8 GPUs chega a 46.841 tokens por segundo. Quando há aumento de solicitações simultâneas, o desempenho do CPU cai abruptamente para 257 tokens por segundo, enquanto o cluster de 8 GPUs mantém quase sem perda de desempenho.

Em termos de densidade de cálculo, os GPUs, com milhares de núcleos CUDA, suportam formatos de baixa precisão como FP4/FP8, atingindo centenas de TFLOPS, enquanto os CPUs geralmente oferecem entre 1 e 10 TFLOPS de FP32.

Estes dados mostram que, em cenários de inferência de alta taxa de throughput e alta concorrência — como serviços de IA na nuvem para grande volume de utilizadores — os GPUs continuam a ser a melhor solução. A Nvidia mantém uma posição de liderança nesta área, com uma quota de mercado de 92% em chips de treino de IA e 78% em chips de inferência no primeiro trimestre de 2026, controlando cerca de 81% do mercado de chips de IA, segundo a SemiAnalysis. O mercado de aceleradores de IA deve atingir cerca de 1,6 mil milhões de dólares em 2025 e avançar para mais de 2 mil milhões em 2026, com a inferência a representar cerca de dois terços desse valor.

Contudo, a quota de mercado dos GPUs na inferência enfrenta múltiplas pressões — do regresso do CPU, da concorrência de ASICs especializados e de considerações de custo.

A contra-ofensiva dos fabricantes de CPUs na inferência

A reavaliação do valor do CPU na inferência já se traduz em um impulso de mercado quantificável.

O mercado de processadores para data centers está a crescer rapidamente devido ao aumento da procura por cargas de trabalho de IA generativa, prevendo-se que passe de 215 mil milhões de dólares em 2025 para 656 mil milhões em 2031. A Guotai Securities aponta que os grandes data centers estão numa “fase de atualização”, prevendo um aumento de 25% nas remessas de CPUs de servidores em 2026.

A AMD beneficia significativamente desta tendência. A procura por servidores de IA impulsionou as remessas de CPUs EPYC, com a quinta geração Turin a conquistar uma fatia considerável do mercado de CPUs de servidores, prevendo-se que o negócio cresça pelo menos 50% em 2026. Analistas da Bernstein estimam que as vendas de CPUs EPYC da AMD possam subir 30% em 2026. No mercado de CPUs para data centers, até ao início de 2026, a Intel detém cerca de 60% de quota, a AMD cerca de 24% e a Nvidia cerca de 6%. A AMD também compete com a Nvidia no mercado de aceleradores de IA com a sua linha Instinct, posicionando-se de forma única na fase de inferência.

A Intel também está a ajustar a sua estratégia. Na Computex de junho de 2026, o novo CEO da Intel, Pat Gelsinger, anunciou com a arquitetura de processo 18A e uma arquitetura de desacoplamento de rack que a era da inferência está a regressar ao CPU, mudando a infraestrutura de IA de “comprar tudo de uma vez” para “montar com peças”. Os processadores Xeon da Intel incluem a tecnologia avançada de matriz expandida (AMX), que pode acelerar a inferência de grandes modelos de linguagem de médio a grande porte sem necessidade de GPU ou outros aceleradores de IA.

A mudança mais simbólica vem da própria Nvidia. Esta empresa, que definiu a era da IA com GPUs, lançou em 2026 as linhas de CPU Grace e Vera, sendo que a Vera foi especificamente desenhada para cargas de trabalho de inferência e IA agente. A Nvidia prevê que a sua receita de CPU atinja 20 mil milhões de dólares em 2026. Além disso, a Nvidia e a Arm lançaram em 2026 CPUs independentes, marcando a entrada oficial desta gigante de GPUs na corrida de CPUs.

ASICs e chips dedicados: o surgimento de uma terceira via

Para além da narrativa binária GPU vs CPU, os ASICs (Circuitos Integrados de Uso Específico) estão a emergir como a variável de crescimento mais rápido no mercado de inferência.

A TD Cowen estima que a quota de aceleradores comerciais passará de cerca de 91% em 2025 para aproximadamente 75% em 2030, enquanto os ASICs personalizados subirão de cerca de 9% para cerca de 25%. As remessas de servidores com ASICs deverão crescer 44,6% em 2026, enquanto as de GPUs crescerão apenas 16,1%, sendo um terço do crescimento dos ASICs.

Grandes fornecedores de cloud estão a acelerar o desenvolvimento interno de chips de inferência. Chips ASIC especializados, como o TPU do Google, Inferentia da AWS, MTIA da Meta e LPU (Language Processing Unit) da Groq, estão a surgir rapidamente. A Broadcom prevê que as receitas de IA no segundo trimestre de 2026 atinjam 10,8 mil milhões de dólares, crescendo 143% em relação ao ano anterior, com uma previsão anual de 56 mil milhões, um aumento de 180%. A Broadcom estima que controlará cerca de 60% do mercado de chips de IA personalizados.

Esta tendência indica que o mercado de chips de inferência está a evoluir de uma dominância de “GPU universal” para um ecossistema diversificado de “GPU + CPU + ASIC”. Os GPUs continuam a suportar treino intensivo e inferência em larga escala, os CPUs a coordenar tarefas e sistemas, e os ASICs a alcançar eficiência energética máxima em cargas específicas de inferência.

A reestruturação dos custos e a economia da inferência

A escolha de chips na fase de inferência acaba por se resumir a uma questão central: qual o custo por milhão de tokens inferidos?

Na fase de treino, a precisão do modelo e o tempo de treino são os principais indicadores, com maior tolerância ao custo. Mas na inferência, trata-se de uma atividade contínua e de alta frequência — cada chamada API, cada pedido de utilizador gera custos diretos. Assim, a competição por chips de inferência passa a valorizar mais o “throughput efetivo por unidade de custo”.

Os chips GPU têm custos de hardware mais elevados. Por exemplo, o AMD MI300X custa cerca de 10 a 15 mil dólares, enquanto o Nvidia H100 varia entre 25 e 40 mil dólares. Mas o custo por unidade de capacidade de cálculo é mais baixo — por exemplo, numa instância de nuvem, o custo por token gerado por GPU é 40% a 60% inferior ao de uma instância CPU. A vantagem do CPU reside na ausência de investimento adicional em hardware, sendo mais adequado para tarefas de baixa concorrência e baixa latência.

No entanto, à medida que a escala de inferência aumenta, os custos marginais do CPU sobem mais rapidamente — com o aumento de solicitações simultâneas, o CPU precisa de agendar tarefas por turnos, com overhead de troca de contexto a crescer exponencialmente com a concorrência. Isto significa que, em implantações de larga escala, o investimento inicial mais elevado em GPUs ou ASICs pode ser compensado por maior throughput e menor custo unitário, garantindo um ROI mais favorável a longo prazo.

Conclusão

A proporção de capacidade de inferência de um terço para dois terços revela uma profunda transformação na lógica de competição do setor de chips.

Para a Nvidia, a sua vantagem absoluta no mercado de treino (cerca de 90%) dificilmente será abalada a curto prazo, mas a competição no mercado de inferência será mais intensa. A New Street Research faz uma previsão mais otimista: até 2028, a quota de mercado de inferência da Nvidia poderá cair para entre 20% e 30%. Mesmo numa previsão mais conservadora, como a da Bloomberg Intelligence — que prevê que a Nvidia mantenha entre 70% e 75% até 2030 —, o crescimento das remessas de ASICs, que supera largamente o dos GPUs, já é uma realidade.

Para AMD e Intel, a recuperação da procura por CPUs na inferência representa uma oportunidade estrutural. A AMD, com a sua estratégia dupla de CPUs EPYC e GPUs Instinct, e a Intel, com a evolução contínua dos processadores Xeon com tecnologia 18A, tentam aproveitar esta janela.

Para os fornecedores de cloud e desenvolvedores de IA, a diversificação de opções de chips oferece mais possibilidades de otimização de custos. Desde GPUs universais a ASICs personalizados, passando por CPUs de inferência acelerada por GPU, a escolha de hardware dependerá cada vez mais das características específicas de cada carga de trabalho — tamanho do modelo, requisitos de latência, volume de concorrência, orçamento.

A procura por capacidade de cálculo de inferência está a crescer a uma velocidade superior à do treino. Esta mudança de foco de treino para inferência está a remodelar toda a cadeia de produção, desde o design de chips até às arquiteturas de data center. Os GPUs não perderão o seu lugar, mas já não são a única resposta.

Ver original

A era da inferência de IA chegou realmente? A reestruturação do poder de processamento com GPU, CPU e ASIC

Como o CPU voltou ao centro do palco

A vantagem competitiva dos GPUs e os desafios na inferência

A contra-ofensiva dos fabricantes de CPUs na inferência

ASICs e chips dedicados: o surgimento de uma terceira via

A reestruturação dos custos e a economia da inferência

Conclusão

Tópicos em destaque

MyGateTradeStory

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

GateProofOfReservesReport

Fixado