Caaitong Securities: Inovação Arquitetónica Ultrapassa Gargalo de Latência da Inferência em Modelos de Grande Escala, Espaço de Mercado Vasto com Potencial para Rápida Expansão de Volume

robot
Geração de resumo em curso

A CITIC Securities publicou um relatório de pesquisa afirmando que a LPU é uma nova geração de chips voltados para a fase de inferência de grandes modelos, com arquitetura TSP. A instituição acredita que a LPU se beneficiará do excelente desempenho de baixa latência de inferência, podendo alcançar uma rápida penetração no mercado. A previsão é de que a LPU apresente alto potencial de crescimento e oportunidades de PCB com a venda em gabinetes, recomendando atenção às seguintes empresas: Zhiwei Intelligent (001339.SZ) (participada da Yuan Chuan Micro), Xingchen Technology (301536.SZ) (com múltiplas rodadas de aumento de capital na Yuan Chuan Micro), Sh电股份 (002463.SZ) (fornecedor de PCB da Nvidia), Shenghong Technology (300476.SZ) (fornecedor de PCB da Nvidia), Shennan Circuit (002916.SZ).

Principais pontos da CITIC Securities:

A LPU é uma nova geração de chips voltados para a fase de inferência de grandes modelos, com arquitetura TSP

A LPU é uma arquitetura de chip inovadora, projetada para tarefas de processamento sequencial e intensivo em cálculo, com foco na arquitetura TSP, que inclui cinco módulos funcionais. Ela desmembra a pipeline de cinco estágios de processadores clássicos por todo o chip, eliminando a complexidade do hardware e garantindo que a ordem e o tempo de execução das instruções sejam determinísticos. Com a arquitetura TSP, o compilador pode acessar e controlar com precisão o hardware subjacente do chip, realizando hardware definido por software.

A LPU pode reduzir a latência na inferência de grandes modelos, melhorando a experiência do usuário

Durante a inferência de grandes modelos, há uma latência que afeta a experiência do usuário. Essa latência ocorre principalmente na fase de Decodificação, cujo gargalo principal é a largura de banda da memória. A LPU possui maior largura de banda de memória, podendo diminuir a latência na inferência de grandes modelos. Além disso, modelos baseados na LPU oferecem não só maior velocidade de inferência, mas também melhor relação custo-benefício, elevando ainda mais a experiência do usuário.

A LPU possui amplo potencial de desenvolvimento e já entrou na fase de produção em pequena escala

Atualmente, o consumo de tokens aumentou significativamente. No início de 2024, o consumo diário de tokens na China atingiu 100 bilhões. Em fevereiro de 2026, o consumo diário de tokens de grandes modelos principais já atingiu cerca de 180 trilhões, indicando um crescimento rápido do mercado de chips de inferência. A LPU pode reduzir a latência na inferência de grandes modelos, e acredita-se que ela venha a penetrar gradualmente no mercado de chips de inferência, com alto potencial de crescimento. A produção em pequena escala já começou, com volume de vendas iminente.

Aviso de risco: risco de iteração tecnológica de IA abaixo do esperado; risco de desenvolvimento de grandes modelos abaixo do esperado; risco de desenvolvimento da indústria de LPU abaixo do esperado.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar