Construir o primeiro cluster de mil cartões de inferência de IA nacional, CloudWalk deu um exemplo para o "modelo nacional e chip nacional"

MaticHoleFiller · 2026-03-17T17:32:36+00:00

A Yun Tian Li Fei ganhou a licitação para o projeto de infraestrutura de suporte à penetração de IA na cidade de Zhanjiang, no valor de 420 milhões de yuans, com foco na construção de capacidades de raciocínio. O projeto será equipado com uma placa de aceleração de raciocínio de IA desenvolvida internamente, ajudando a impulsionar o crescimento do desempenho da empresa e a validar a tecnologia própria. No futuro, a Yun Tian Li Fei planeja continuar a reduzir os custos de raciocínio, a fim de alcançar uma aplicação de maior escala de poder computacional de IA.

MaticHoleFiller

2026-03-17 17:32:36

Geração de resumo em curso

YunTian LiFe (688343.SH) conquistou mais um grande contrato de 420 milhões de yuan.

Em 12 de março, de acordo com informações de licitação pública, YunTian LiFe foi a vencedora na licitação do projeto de infraestrutura de suporte à nova capacidade de produção baseada em AI na cidade de Zhanjiang (doravante “Projeto Zhanjiang”), com um valor de 420 milhões de yuan. O projeto será baseado na placa de aceleração de inferência de AI nacional desenvolvida pela YunTian LiFe, construindo um cluster de mil placas de inferência de AI nacionais. O cluster planeja incorporar grandes modelos nacionais como DeepSeek, oferecendo capacidades de AI mais acessíveis e de baixo custo para governança, indústria e aplicações relacionadas.

O relatório de desempenho de YunTian LiFe de 2025 mostra que, no último ano, a empresa alcançou uma receita de 1,308 bilhões de yuan, um aumento de 42,57% em relação ao ano anterior; o prejuízo líquido atribuível aos acionistas foi de 402 milhões de yuan, uma redução de 30,50% em relação ao mesmo período do ano anterior. A conquista do projeto de infraestrutura de computação de 420 milhões de yuan neste momento não só reforça a capacidade de comercialização de seus chips autodesenvolvidos, mas também se traduz diretamente em um motor de crescimento contínuo para o desempenho futuro da empresa.

Para YunTian LiFe, porém, mais do que a contribuição financeira, o significado de referência do projeto de Zhanjiang é ainda mais importante. Quando a inteligência artificial passa do laboratório para o setor industrial, o valor da capacidade de computação deixa de ser apenas um indicador de ranking para se tornar uma força de produção inclusiva que empodera diversos setores. Sob essa perspectiva, o projeto de Zhanjiang não é apenas um impulsionador de receita de curto prazo, mas uma jogada crucial para YunTian LiFe demonstrar sua força de pesquisa e desenvolvimento, além de conquistar posições estratégicas na indústria.

Como o primeiro cluster de inferência de AI totalmente nacional, o projeto de Zhanjiang não só estabelece um marco na comercialização em larga escala da capacidade de inferência de YunTian LiFe, mas também fornece o melhor campo de testes para a profunda integração de “modelos nacionais” e “chips nacionais”, apoiando a contínua expansão rumo a clusters de dez mil placas.

Quando o foco da indústria se desloca do pico de treinamento para o custo de inferência, quem puder oferecer uma capacidade de inferência em grande escala de forma mais econômica terá vantagem na próxima rodada de competição em AI. A jogada de YunTian LiFe em Zhanjiang é uma posição estratégica crucial na era da inferência.

Demanda de capacidade de AI se volta para “inferência prioritária”

Diferentemente do modo de construção “treinamento e inferência integrados” adotado por centros de inteligência domésticos no passado, o projeto de Zhanjiang da YunTian LiFe optou por uma abordagem mais focada tecnicamente — uma plataforma de inferência de AI dedicada às tarefas de inferência, voltada principalmente para diversos cenários industriais, oferecendo suporte direto à digitalização de setores tradicionais.

Por trás dessa mudança, há uma profunda transformação na lógica da indústria de AI.

O sistema de capacidade de AI pode ser dividido em capacidade de treinamento e capacidade de inferência. O treinamento determina como o modelo constrói sua habilidade de zero a um, focando na capacidade de cálculo absoluto; já a inferência usa o modelo treinado para fazer previsões, sendo mais prática, com requisitos de capacidade de cálculo relativamente menores, e mais sensível a baixa latência e baixo consumo de energia.

Nos últimos anos, o foco da indústria esteve na corrida armamentista de parâmetros, com modelos de dezenas, centenas de bilhões ou até trilhões de parâmetros sendo lançados sucessivamente, com grandes empresas competindo pelo domínio da capacidade de modelos. No entanto, à medida que a capacidade dos modelos amadurece, a indústria começa a questionar: esses modelos realmente criam valor em determinados cenários?

Por isso, a capacidade de inferência tem recebido mais atenção. Seja o popular SeeDance durante o feriado de Ano Novo, o recente debate sobre “Lagostim” ou as aplicações de AI Agent em diversos setores, todos dependem do suporte de capacidade de inferência. Segundo a Gartner, até 2026, cerca de 55% dos gastos com infraestrutura de nuvem dedicada a AI serão destinados a cargas de trabalho de inferência.

Essa é justamente a vantagem da YunTian LiFe. Como fabricante de chips nacionais há anos focada na área de chips de inferência, sua arquitetura “blocos de capacidade” já permite uma expansão flexível de capacidade sob processos avançados nacionais, voltada para áreas como edge, inteligência embarcada e nuvem, com séries de chips como “DeepSky”, “DeepForce” e “DeepVault”.

Graças a isso, YunTian LiFe consegue atender melhor às demandas do projeto de Zhanjiang.

Aplicações de inferência de grandes modelos exigem simultaneamente alta concorrência, alto throughput e baixa latência. Além disso, com o aumento do comprimento do contexto dos grandes modelos, uma grande quantidade de estados intermediários precisa ser armazenada na forma de KV Cache (cache de chaves e valores). Assim, a indústria acredita que, no futuro, o gargalo de desempenho dos sistemas de inferência será cada vez mais relacionado à eficiência de acesso aos dados, e não apenas à capacidade de cálculo.

Nesse cenário, o design colaborativo entre capacidade de processamento, armazenamento e rede está se tornando uma vantagem competitiva fundamental na infraestrutura de AI.

O cluster de inferência de mil placas implementado em Zhanjiang foi construído com essa lógica. Utiliza chips de inferência autodesenvolvidos pela YunTian LiFe, com uma arquitetura de sistema que prioriza a otimização de pré-carregamento (Prefill) e equilibra a decodificação (Decode). Ao configurar recursos de cálculo e largura de banda de armazenamento de forma direcionada, o sistema mantém alta eficiência de throughput mesmo em cenários de inferência de longo contexto.

Na conectividade, YunTian LiFe usa uma arquitetura de alta velocidade unificada, com rede de fibra óptica 400G para conectar os nós do cluster, garantindo comunicação de alta largura de banda e baixa latência; na capacidade de implantação, essa arquitetura suporta desde dezenas de placas por nó até clusters de mil placas, atendendo a diferentes necessidades de aplicações de AI.

Por meio de otimizações em arquitetura de chips, conectividade de rede e agendamento de sistema, esse cluster de inferência oferece vantagens claras em eficiência geral e controle de custos, proporcionando uma solução de computação mais econômica para aplicações em escala de AI.

Reduzindo o custo de um bilhão de tokens para um centavo

Para YunTian LiFe, o projeto de Zhanjiang é apenas o começo.

À medida que modelos maiores entram na fase de aplicação, o foco da indústria se desloca do “pico de capacidade” para a “eficiência de custo por unidade”. Em outras palavras, o principal fator de competição na indústria de AI no futuro será quem consegue oferecer capacidade de inferência em grande escala de forma mais econômica e estável.

Como pioneira em chips de inferência, YunTian LiFe tem uma percepção clara disso. Em fevereiro, a empresa anunciou seu plano de reduzir os custos de inferência de um milhão de tokens em dois dígitos percentuais ao ano, com uma estratégia de chips de alta capacidade para os próximos três anos.

O primeiro chip de ultra-nós (Ultra-Node) da geração 1, o P, será lançado ainda este ano, voltado para cenários de inferência com contextos de milhões de tokens, com otimizações extremas de pré-carregamento, competindo de perto com o H100 em capacidade; em 2027, a YunTian LiFe planeja desenvolver o chip de primeira geração D, para alcançar inferência de decodificação com latência ultra baixa; e, em 2028, a segunda geração de chips D será criada, visando otimizações sistêmicas que elevem o desempenho de pré-carregamento e decodificação, avançando rumo à inferência em milissegundos.

Embora o plano esteja traçado, toda grande estratégia tecnológica precisa de validação prática para comprovar seu valor comercial. Os chips precisam realmente atender às demandas do setor? Os recursos de pré-carregamento e decodificação podem ser otimizados na carga de trabalho real? Como aliviar a pressão de acesso a dados via KV Cache em clusters de mil placas? Essas questões só podem ser resolvidas na prática, em ambientes industriais reais.

Para YunTian LiFe, o projeto de Zhanjiang não é apenas uma entrega de projeto, mas uma verdadeira batalha de testes de força tecnológica.

O projeto será realizado em três fases, todas usando placas de inferência de AI nacionais autodesenvolvidas. A primeira fase implantará as placas X6000; as fases dois e três usarão os chips mais recentes da empresa. A primeira placa de pré-carregamento (Prefill), DeepVerse100, deve ser finalizada ainda este ano e será implantada inicialmente no cluster de Zhanjiang.

Além disso, o cluster de inferência de mil placas demonstra grande flexibilidade de implantação. Em uma arquitetura típica, um cluster de mil placas é composto por múltiplos níveis de expansão: de um nó com 8 placas, 32, até 64 ou centenas de placas, formando um sistema de grande escala. Essa operação prática ajudará a validar tecnologias-chave como interconexão entre placas, comunicação entre nós e balanceamento de carga, acumulando experiência para futuras construções de sistemas de AI de maior escala.

Em planos de longo prazo, YunTian LiFe propôs o “Plano 1001”, com a meta de “um centavo por bilhão de tokens” a longo prazo, buscando reduzir continuamente os custos de inferência de grandes modelos por meio de otimizações conjuntas de chips e sistemas.

Se essa meta for alcançada, a AI se tornará uma infraestrutura básica, como água e eletricidade, permeando todos os setores. Para YunTian LiFe, que lidera a corrida na inferência, esse será um período dourado de “vender água”.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.