Procura de poder de computação lógica aumenta drasticamente; empresas da cadeia de indústria aceleram implantação

2026-03-20 13:29:05

证券日报网记者王镜茹

À medida que a tecnologia de inteligência artificial generativa avança do “treinamento de modelos” para uma implementação comercial em larga escala, o consumo de poder de processamento centrado no treinamento está a migrar para uma procura contínua de poder de inferência. Em 17 de março, Jensen Huang, CEO da Nvidia, afirmou na GTC que o ponto de viragem do mercado de inferência de IA já chegou, com a IA a passar totalmente da fase de treino para a fase de inferência e execução, levando a uma explosão exponencial na procura de poder de inferência.

“À medida que a escala de aplicações de inteligência artificial generativa aumenta, a velocidade de crescimento da procura de poder de inferência pode superar amplamente a do treino. Por um lado, a procura de aplicações explode, com a implementação acelerada de IA generativa e agentes inteligentes, e a interação frequente dos utilizadores gera pedidos de inferência em escala exponencial; por outro lado, avanços contínuos em chips de inferência dedicados, refrigeração líquida e interconexões óticas aumentam significativamente a eficiência do poder de processamento e a capacidade de concorrência, estabelecendo a base para uma implementação em larga escala.” afirmou Zhang Pengyuan, investigador da Shenzhen Qianhai PaiPaiWang Fund Sales Co., Ltd., ao jornal Securities Daily.

De acordo com previsões de instituições do setor, a importância do poder de inferência continua a crescer. A IDC prevê que, até 2027, a proporção de poder de inferência na China ultrapassará 70% do total de poder de processamento. Huang Chao, fundador e CEO da China IDC Circle, afirmou que, em 2026, os agentes inteligentes do setor entrarão numa fase de desenvolvimento diversificada, com o poder de processamento a passar de uma fase “dominada pelo treino” para uma “impulsionada pela inferência”, e que o ciclo de explosão na procura de poder de inferência está prestes a começar de forma abrangente.

Diante do rápido crescimento da procura de poder de inferência, empresas da cadeia de valor doméstica estão a acelerar o desenvolvimento tecnológico e a expansão de produtos. No setor de chips, várias empresas estão a lançar chips otimizados para cenários de inferência. Em comparação com os chips tradicionais de treino, os chips de inferência enfatizam mais o controlo de consumo energético, eficiência de custos e flexibilidade de implantação, tendo assim um amplo espaço de aplicação tanto na nuvem como na periferia.

Por exemplo, a Shenzhen Yuntian Lifei Technology Co., Ltd. (doravante “Yuntian Lifei”) centra-se na NPU, tendo definido a sua rota tecnológica GPNPU para chips de alta capacidade para cenários de inferência na nuvem, com otimizações profundas em matrizes, unidades vetoriais, níveis de armazenamento e utilização de largura de banda efetiva, com o objetivo de reduzir exponencialmente o custo por token e acelerar a implementação de modelos de grande escala de forma acessível.

Em 2025, a Yuntian Lifei atingirá uma receita de 1,308 mil milhões de yuans, um aumento de 42,57% em relação ao ano anterior. Um responsável da empresa afirmou ao Securities Daily: “Para as empresas, à medida que a concorrência no setor evolui de uma comparação de escala de treino para uma comparação de eficiência de inferência, custos de entrega e rentabilidade do sistema, quem conseguir integrar hardware, armazenamento e software mais cedo terá mais hipóteses de liderar na era da inferência.”

No nível de servidores e sistemas, os principais fabricantes continuam a lançar plataformas de poder de processamento otimizadas para cenários de inferência. Por exemplo, a Inspur Electronics Information Industry Co., Ltd. lançou o servidor de inferência YuanNao R1, que suporta 16 placas PCIe de dupla largura, podendo implantar o modelo DeepSeek-671B num único servidor; também lançou o servidor de inferência YuanNao CPU, que permite uma implantação rápida e eficiente de modelos de nova geração como DeepSeek-R132B e QwQ-32B.

Simultaneamente, a construção de infraestruturas de poder de processamento também acelera. No passado, muitos centros de computação inteligente no país adotaram modelos integrados de treino e inferência. Em 12 de março, a Yuntian Lifei foi selecionada para o projeto de construção de infraestrutura de suporte à produção de nova qualidade na cidade de Zhanjiang, província de Guangdong, com foco em clusters de inferência de IA dedicados a tarefas específicas, destinados a várias aplicações industriais e a fornecer exemplos concretos de implementação de IA na indústria tradicional chinesa.

He Li, diretor-geral da Beijing Zhi Yu Zhi Shan Investment Management Co., Ltd., acredita que, nesta transformação, os chips de inferência de alto desempenho, HBM e software de pilha completa serão os primeiros a beneficiar dos dividendos de poder de processamento. Os cenários de inferência exigem baixa latência, alta taxa de transferência e eficiência energética, com arquiteturas dedicadas como LPU e ASIC a acelerar a substituição de unidades de computação genéricas, enquanto tecnologias de armazenamento como HBM4 serão essenciais para superar os limites de largura de banda. Além disso, o poder de processamento está a deslocar-se do centro de dados para a periferia, com a crescente necessidade de racks de inferência de alta densidade e tecnologias avançadas de refrigeração, combinadas com otimizações de compilação como quantização de modelos e compressão de parâmetros, impulsionando a transição da pilha de hardware para uma colaboração entre hardware e software.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.