42 milhões! Yuntian Lifei começa bem o ano, vence o projeto de cluster de inferência de IA de Zhanjiang de mil calorias

robot
Geração de resumo em curso

(Origem: YunTianLiFei)

Recentemente, a YunTianLiFei foi selecionada para o projeto de construção de infraestrutura de suporte à nova produção de força de trabalho de alta qualidade em Zhanjiang, focada na infiltração de IA. De acordo com o planejamento do projeto, a empresa participará na construção de um cluster de capacidade de cálculo para inferência de IA, baseado na sua própria placa de aceleração de inferência de IA nacional, e promoverá a adaptação e implantação de grandes modelos nacionais como o DeepSeek em cenários de aplicação relacionados, fornecendo suporte de infraestrutura de capacidade de cálculo para aplicações governamentais e industriais na digitalização.

Construção de infraestrutura de capacidade de cálculo para inferência de grandes modelos

O cluster de capacidade de cálculo para inferência de IA que será desenvolvido neste projeto será projetado de forma sistemática para atender às demandas das tarefas de inferência de grandes modelos.

Durante o processo de inferência de grandes modelos, diferentes fases de cálculo apresentam necessidades distintas de recursos do sistema. Atualmente, a indústria geralmente adota uma arquitetura de inferência de “Pré-preenchimento–Decodificação” separada, otimizando a alocação de recursos para diferentes fases para melhorar a eficiência operacional do sistema como um todo.

Sob essa arquitetura, a fase de Pré-preenchimento é responsável principalmente pela compreensão de contextos longos e cálculos, exigindo alta capacidade de processamento e largura de banda; a fase de Decodificação gera tokens continuamente, sendo mais sensível à latência do sistema. Durante a construção do projeto, a alocação de recursos de capacidade de cálculo e as otimizações do sistema serão ajustadas de acordo com as características de cada fase.

Ao mesmo tempo, com o aumento contínuo do comprimento do contexto do modelo, uma grande quantidade de estados intermediários precisa ser armazenada na forma de cache KV. Com base nessa característica, o projeto otimizará a coordenação entre cálculo, armazenamento e rede no design do sistema, visando melhorar a eficiência de acesso aos dados e o desempenho geral do sistema.

No que diz respeito à arquitetura de rede, o sistema adotará uma arquitetura unificada de alta velocidade, construindo a rede física do cluster através de uma rede de fibra óptica de 400G, garantindo comunicação de alta largura de banda e baixa latência entre os nós, além de suportar a expansão de dezenas de placas por nó até uma escala de cluster de mil placas, atendendo às diferentes necessidades de aplicações de IA de diversos tamanhos.

Após a conclusão da construção geral do projeto, será estabelecida uma infraestrutura de capacidade de cálculo voltada para tarefas de inferência de grandes modelos, fornecendo suporte de capacidade de cálculo estável para cenários de aplicação relacionados.

Promoção contínua de pesquisa e desenvolvimento de chips de inferência de IA e sistemas de capacidade de cálculo

De acordo com o planejamento do projeto, o cluster de capacidade de cálculo de inferência de IA será construído em três fases, utilizando as placas de aceleração de inferência de IA nacionais desenvolvidas pela YunTianLiFei.

A primeira fase implantará a placa de aceleração de inferência YunTianLiFei X6000; futuramente, será a primeira a incorporar a mais recente geração de chips da empresa.

No que diz respeito ao desenvolvimento de chips de inferência de IA, a YunTianLiFei está continuamente avançando na estratégia tecnológica para diferentes fases de inferência. Segundo o planejamento estratégico da empresa, futuramente serão lançados gradualmente chips otimizados para a fase de Pré-preenchimento, bem como chips de inferência de baixa latência voltados para a fase de Decodificação, além de otimizações colaborativas em nível de sistema para elevar ainda mais a eficiência geral de inferência.

Entre eles, o primeiro chip da empresa voltado para cenários de inferência de contexto longo, o DeepVerse100, deverá ser finalizado em produção de amostras ainda neste ano, com planos de implantação em sistemas de capacidade de cálculo relacionados.

No planejamento tecnológico de longo prazo, a empresa propôs o “Plano 1001”, cujo objetivo de longo prazo é alcançar “bilhões de tokens por um centavo”, promovendo a redução contínua do custo de inferência de grandes modelos por meio da otimização colaborativa entre arquitetura de chips e sistemas de capacidade de cálculo.

No futuro, a empresa continuará a avançar na pesquisa e desenvolvimento de tecnologias relacionadas a chips de inferência de IA, promovendo a implementação acessível da inteligência artificial em mais setores.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar