Inovação na rede na era da IA: redução de custos, abertura e equilíbrio do Poder de computação são fundamentais

robot
Geração de resumo em curso

A importância da rede na era da IA e as direções de inovação

A rede tornou-se uma parte fundamental na era dos grandes modelos de IA. Com o rápido crescimento da escala dos modelos, os clusters de múltiplos servidores tornaram-se a solução principal para resolver problemas de treinamento, sendo essa a base para a “ascensão” da rede na era da IA. Em comparação com o passado, quando se tratava apenas de transmitir dados, atualmente a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que exige uma maior densidade e capacidade da rede.

A demanda da rede vem principalmente de três áreas:

  1. O tamanho dos modelos está a aumentar rapidamente. O tempo de treino é proporcional à quantidade de parâmetros do modelo e inversamente proporcional à velocidade de cálculo. Para reduzir o tempo de treino, é necessário aumentar o número de dispositivos através da rede e melhorar a eficiência de paralelismo entre múltiplos dispositivos.

  2. Comunicação complexa de sincronização de múltiplas placas. Após a divisão do modelo para uma única placa, cada cálculo requer alinhamento, o que impõe exigências mais altas para a transmissão e troca de rede.

  3. Custo de falha cada vez mais elevado. O treinamento de grandes modelos geralmente dura meses, e interrupções podem causar perdas graves em termos de progresso e custo. As redes de IA modernas tornaram-se a cristalização da capacidade de engenharia de sistemas humanos, comparável a aviões, porta-aviões, entre outros.

A inovação na rede futura será desenvolvida em torno de três direções: “redução de custos”, “abertura” e equilíbrio da escala de computação:

  1. Mudança de meio de comunicação: os módulos ópticos buscam taxas de transmissão mais altas enquanto exploram rotas de redução de custos como LPO, LRO e fotônica de silício. Os cabos de cobre ocupam a conexão dentro do armário devido à sua relação custo-benefício. Novas tecnologias semicondutoras, como Chiplet e Wafer-scaling, aceleram a exploração do limite de interconexão baseado em silício.

  2. Competição de protocolos de rede: protocolos de comunicação entre chips fortemente vinculados às placas gráficas, como NV-LINK, Infinity Fabric, etc. A comunicação entre nós concentra-se principalmente na competição entre os dois grandes protocolos, IB e Ethernet.

  3. Mudanças na arquitetura de rede: atualmente, a arquitetura de folha e espinha é amplamente utilizada, mas à medida que o tamanho do cluster aumenta, novas arquiteturas como Dragonfly e rail-only têm potencial para se tornarem a direção de evolução de superclusters.

Sugestões de investimento a considerar:

Elementos centrais do sistema de comunicação: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.

Inovação no sistema de comunicação: Fibra Óptica Changfei, Tai Chen Guang, Yuan Jie Ke Ji, Sheng Ke Tong Xin-U, Han Wu Ji, De Ke Li.

Aviso de risco: A demanda por IA não atinge as expectativas, a lei de escalonamento falha, a concorrência no setor aumenta.

ETH-1,98%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado