Perplexity base de raciocínio de código aberto pplx-garden, contorna o imposto de rede da Nvidia para comunicação rápida em múltiplas placas

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com a monitorização Beating, o gigante dos motores de busca Perplexity AI lançou oficialmente como código aberto a ferramenta de infraestrutura de inferência de alto desempenho para uso em produção pplx-garden. O núcleo do projeto é a biblioteca de comunicação ponto a ponto de alto desempenho desenvolvida internamente em Rust, fabric-lib (também conhecida como TransferEngine), com o objetivo de romper a ligação de hardware exclusiva do protocolo de comunicação proprietário da NVIDIA, ajudando os desenvolvedores a realizar a execução rápida de modelos de bilhões de parâmetros em clusters heterogêneos de múltiplas GPUs, sem a necessidade de adquirir switches de rede caros e exclusivos. A inferência de grandes modelos distribuídos tradicionalmente depende fortemente da rede de comunicação de alta velocidade exclusiva da NVIDIA, levando a custos elevados de implantação de hardware e bloqueios na cadeia de suprimentos. fabric-lib realiza a desassociação a nível de hardware, não apenas adaptando-se perfeitamente às placas de rede NVIDIA ConnectX-7, mas também suportando nativamente as placas Ethernet tradicionais AWS EFA de baixo custo, aumentando a largura de banda da rede entre múltiplas placas até 400 Gbps. Para contornar as deficiências físicas de transmissão fora de ordem do AWS EFA, a Perplexity inovou com o mecanismo de sincronização de contadores ImmCounter, que permite uma circulação de dados eficiente de "zero cópia" sem fazer hipóteses rígidas sobre a ordem dos pacotes. A biblioteca de comunicação possui um algoritmo de distribuição de dados especialmente projetado para modelos de especialistas híbridos MoE, que sobrepõe profundamente a recepção de dados das GPUs com cálculos matriciais, maximizando o potencial de processamento na fase de decodificação. Na produção real, o pplx-garden traz benefícios de engenharia extremamente notáveis. Na arquitetura de inferência desacoplada, a biblioteca de rede realiza uma rápida orquestração do cache de chaves e valores entre os nós Prefill e Decoder. Em treinamentos de reforço assíncrono, é possível sincronizar e distribuir os pesos de um modelo de trilhões de parâmetros em apenas 1,3 segundos. Para resolver a latência de cálculo na fase de tokenização, o pplx-garden lançou uma versão open source do tokenizador pplx-unigram, reescrita em Rust, que reduz o consumo de CPU em 5 a 6 vezes, eliminando gargalos de desempenho na fase de tokenização causados por reordenação e modelos vetoriais. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 3
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GlassDomeRoaming
· 4h atrás
pplx-unigram reduz o consumo de CPU em 5-6 vezes, a segmentação de palavras finalmente deixou de ser um gargalo invisível, só descobri ao fazer um perfil antes que fosse muito absurdo.
Ver originalResponder0
RefrigeratorMagnetContract
· 4h atrás
400Gbps de largura de banda parece ótimo, mas o fabric-lib remover a ligação ao hardware é que realmente liberta a manutenção.
Ver originalResponder0
GateUser-3e7da866
· 4h atrás
A distribuição de dados MoE e a sobreposição de cálculo, maximizando a utilização do hardware, essa abordagem de design vale a pena analisar o código-fonte detalhadamente.
Ver originalResponder0
  • Fixado