A NVIDIA integra a tecnologia LPU e lança um novo chip de inferência, marcando a mudança da competição de poder de processamento de IA do treino para a inferência. No futuro, o mercado de inferência apresentará quatro grandes tendências: a tecnologia será reformulada, a atualização de chips nacionais acelerará, a demanda por inferência aumentará significativamente, o que significa que os fabricantes de chips com vantagem de custo irão beneficiar.

SnapshotLaborer

2026-03-01 11:45:46

Geração de resumo em curso

Nvidia está a integrar a tecnologia LPU (Unidade de Processamento de Linguagem) e a apostar em múltiplos chips de inferência OpenAI, mudando o principal campo de competição de poder de cálculo de treino para inferência. A pesquisa da Shenwan Hongyuan acredita que, até 2026, a palavra-chave central na indústria de poder de cálculo será a inferência, e o consumo total de tokens e o paradigma tecnológico serão profundamente reestruturados em torno deste tema.

Em 28 de fevereiro, segundo o The Wall Street Journal, a Nvidia planeia lançar na próxima GTC uma nova chip de inferência que integra a tecnologia Groq “Unidade de Processamento de Linguagem” (LPU). O CEO da Nvidia, Jensen Huang, descreveu-o como “um sistema totalmente novo que o mundo nunca viu antes”. A OpenAI concordou em ser um dos maiores clientes deste processador, adquirindo uma grande capacidade de inferência dedicada.

Ao mesmo tempo, no mês passado, a OpenAI também firmou uma parceria de vários bilhões de dólares com a startup Cerebras, que afirma que a sua chip de inferência já supera as GPUs da Nvidia em velocidade. Estes movimentos indicam que os gigantes da IA estão a passar de uma corrida armamentista de poder de cálculo de treino para uma estratégia multicanal de poder de inferência.

A pesquisa da Shenwan Hongyuan aponta que, na era da economia de tokens, há quatro grandes tendências na inferência: primeiro, o aumento do uso de CPUs (Unidades Centrais de Processamento) em cenários de implantação, acelerando a descentralização do poder de cálculo devido à menor custo; segundo, o surgimento de arquiteturas dedicadas como LPU, desafiando a posição dominante das GPUs na inferência; terceiro, avanços acelerados em chips de poder de cálculo nacionais, com uma tendência clara de diversificação da cadeia de abastecimento; quarto, a mudança na estrutura de demanda de poder de cálculo de “treinamento único” para “consumo massivo de tokens”, tornando a relação custo-benefício o fator central de competitividade.

O relatório indica que as empresas capazes de fornecer chips de inferência acessíveis e de alto desempenho beneficiar-se-ão mais, e que os avanços conjuntos em CPUs, LPU e chips nacionais constituem as principais pistas para a reestruturação do cenário de poder de cálculo.

Demanda de inferência explode, consumo de tokens atinge recordes históricos
---------------------

A pesquisa da Shenwan Hongyuan acredita que, por trás do crescimento contínuo da procura, existem duas forças estruturais principais: primeiro, a monetização de grandes modelos está a acelerar, com modelos como Claude a entrarem na fase de aplicação, lançando múltiplos plugins industriais; segundo, a implementação de agentes está a acelerar, com produtos como OpenClaw e Qianwen Agent a marcar a entrada de agentes em cenários reais de trabalho e produção, onde cada chamada de modelo e execução de tarefa de agente requerem uma grande quantidade de poder de inferência.

Dados citados pela Shenwan Hongyuan mostram que, durante o Ano Novo Chinês, a quantidade de inferência de grandes modelos domésticos aumentou significativamente: na véspera do Ano Novo, a taxa de processamento de tokens atingiu 63,3 bilhões; o número de utilizadores ativos mensais do Yuanbao atingiu 114 milhões; e a atividade do Qianwen durante o “Grande Evento de Isenção de Custos do Ano Novo” ultrapassou 120 milhões de participantes.

A plataforma global de APIs de modelos de IA, OpenRouter, revela ainda mais a escala desta tendência. Entre 9 e 15 de fevereiro, os modelos chineses ultrapassaram pela primeira vez os modelos americanos em chamadas de tokens, com 4,12 trilhões de tokens contra 2,94 trilhões. Entre 16 e 22 de fevereiro, os modelos chineses continuaram a subir, atingindo 5,16 trilhões de tokens, um aumento de 127% em três semanas, com quatro dos cinco principais modelos globais de chamadas de tokens sendo chineses.

LPU torna-se uma nova estrela, chips de treino e inferência evoluem para diferentes caminhos
------------------

A Nvidia investiu 20 mil milhões de dólares na licença da tecnologia central da Groq, e na sua transação de “contratação central” recrutou executivos, incluindo o fundador Jonathan Ross. A pesquisa da Shenwan Hongyuan considera que esta transação marca o reconhecimento oficial da importância dos chips de inferência pura pelos principais players.

A diferença arquitetural entre LPU e GPUs tradicionais é a razão fundamental pela qual a LPU possui vantagem de eficiência em cenários de inferência. A inferência de IA divide-se em duas fases: pré-preenchimento e decodificação, sendo que o processo de decodificação de modelos grandes é especialmente lento. A LPU foi otimizada especificamente para reduzir a latência e melhorar a largura de banda de memória, enfrentando os principais gargalos da inferência. Segundo relatos anteriores, o próximo lançamento da Nvidia poderá envolver uma arquitetura de próxima geração, Feynman, ou uma integração mais ampla de SRAM, possivelmente usando tecnologia de empilhamento 3D para integrar profundamente a LPU.

Com base nisso, a Shenwan Hongyuan prevê que, no futuro, os chips de IA terão uma divisão clara de funções: a fase de treino continuará a usar combinações de GPU e HBM, enquanto a inferência evoluirá para uma combinação de ASIC + LPU-SRAM + SSD. Com a mudança de foco do treino para a inferência, os fabricantes especializados em chips de inferência terão oportunidades de crescimento.

Revolução nos sistemas de inferência, CPU e rede com demanda crescente
---------------------

A evolução de chips individuais para sistemas completos é outro aspecto importante nesta fase de atualização do poder de cálculo de inferência. A Shenwan Hongyuan aponta que, à medida que os cenários de aplicação passam de chatbots para agentes, as exigências de latência, throughput e profundidade de raciocínio também aumentam, levando a uma evolução arquitetural para uma rede de três camadas.

A primeira camada é a “camada de resposta rápida”, composta por chips de inferência com SRAM, oferecendo feedback de latência extremamente baixa; a segunda é a “camada de raciocínio lento”, que usa clusters de alta capacidade de throughput para tarefas complexas, com uma necessidade crescente de CPUs multi-core e multi-threading; a terceira é a “camada de memória”, representada pelo sistema ContextMemory da Nvidia, que gerencia a memória de longo prazo e o cache de chaves-valor (KV) através do DPU Bluefield4, usando armazenamento SSD.

A Nvidia também está a ajustar a sua estratégia de hardware. A prática anterior de combinar CPUs Vera com GPUs Rubin foi considerada demasiado dispendiosa para cargas de trabalho específicas de agentes de IA. Recentemente, a Nvidia anunciou a expansão da colaboração com a Meta Platforms, realizando a primeira implantação em larga escala de CPUs puras para suportar agentes de IA de publicidade direcionada, marcando uma mudança na sua estratégia de vendas de GPU única.

Avanços na aceleração de poder de cálculo nacional
--------

A pesquisa da Shenwan Hongyuan destaca que a evolução tecnológica dos chips de inferência nacionais merece atenção especial, dado que há expectativas de mercado diferentes.

Tecnicamente, os novos chips nacionais de inferência apresentam melhorias fundamentais, incluindo suporte a formatos de dados de baixa precisão como FP8/MXFP8/MXFP4, atingindo 1P e 2P de poder de cálculo; aumento significativo na capacidade vetorial, com uma nova arquitetura suportando modelos de programação SIMD/SIMT; e uma largura de banda de interconexão 2,5 vezes maior, atingindo 2TB/s.

De particular interesse é a implementação de separação de PD nos chips: usando duas versões de HBM de diferentes especificações, uma para pré-preenchimento (PR) e recomendação, e outra para decodificação e treino (DT). A versão PR usa HBM de baixo custo, reduzindo significativamente o investimento na fase de pré-preenchimento, com lançamento previsto para o primeiro trimestre de 2026.

No nível da cadeia de abastecimento, os avanços de fabricantes nacionais de encapsulamento e teste também corroboram este progresso. Segundo uma resposta de consulta de uma grande empresa de encapsulamento, a receita do seu negócio de encapsulamento 2.5D, principalmente de chips de alta performance, cresceu de 0,5 milhões de yuan em 2022 para 1,82 mil milhões de yuan em 2024, confirmando a contínua melhoria na capacidade de fornecimento de chips de poder de cálculo nacionais e acelerando a sua industrialização.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
144.49K Popularidade
#
PYTHUnlocks2.13BillionTokens
928.01K Popularidade
#
IsraelStrikesIranBTCPlunges
47.99K Popularidade
#
#DailyPolymarketHotspot
1M Popularidade
#
TrumpDelaysIranStrike
16.08M Popularidade

Fixado

Por trás do "chip misterioso" da Nvidia -- A era do raciocínio inicia as "quatro novas tendências de poder de computação"

Tópicos em destaque

TradfiTradingChallenge

PYTHUnlocks2.13BillionTokens

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

TrumpDelaysIranStrike

Fixado