Kim Alan Chaw declara que a era da inferência chegou, o que o LPU trará de novo?

Na hora local, a 16 de março, o CEO da NVIDIA, Huang Renxun, apresentou, na conferência GTC, uma nova plataforma de computação concebida para IA de agentes — a NVIDIA Vera Rubin.

Este plataforma funciona como um conjunto de “equipamento de computação” superpoderoso, reunindo vários componentes essenciais, incluindo o Vera CPU (processador central), o Rubin GPU (processador gráfico), os switches de troca NVLink 6, o ConnectX-9 SuperNIC (placa de rede super), o BlueField-4 DPU (processador de dados), bem como o Spectrum-6 (switch Ethernet) e um novo Groq 3 LPU (unidade de processamento de linguagem).

Em termos simples, trata-se de um conjunto completo de hardware criado especificamente para IA, para tornar a computação mais rápida e mais inteligente.

Entre eles, a NVIDIA também lançou o Groq 3 LPX, um rack de prateleiras concebido para implantação em grande escala. Isto significa que pode combinar centenas de LPU para trabalharem em conjunto, como um “cérebro super”, alcançando uma velocidade de inferência extremamente elevada e capacidade massiva para processamento de texto. Este rack integra 256 LPU, com armazenamento em alta velocidade integrado de 128GB, e uma velocidade de transmissão até 640 TB/s.

Na opinião de profissionais do setor, os destaques deste anúncio não estão apenas na atualização de chips, mas sim num salto na densidade de integração do sistema. Zhuang Changlei, diretor do grupo de IA/Fabrico Inteligente da Yunxiao Capital, ao falar com jornalistas do 21st Century Business Herald, afirmou: “A maior mudança é que a NVIDIA elevou formalmente o LPU, de um chip ou acelerador único, para um sistema de rack de nível superior, em pé de igualdade com o GPU.”

Em particular, o número de LPU no rack LPX aumentou de 64 no primeiro geração para 256, num salto de densidade muito acima das expectativas do setor, refletindo também a procura urgente do mercado por inferência de baixa latência e longos textos.

Zhuang Changlei estima que isto marca que a computação de IA está a passar de “treino como principal” para “treino e inferência em conjunto”, com a inferência a tornar-se uma nova infraestrutura de base a nível de sistema.

Para o essencial: inferência

O LPU é uma nova arquitetura de chip desenhada especificamente para tarefas computacionalmente intensivas de processamento sequencial. O seu objetivo central é otimizar a eficiência de inferência de modelos de linguagem através da inovação arquitetónica.

Em termos de arquitetura, cada LPU Groq 3 integra 500 MB de SRAM: um dos elementos centrais do LPU é o bloco MEM, uma arquitetura de memória plana e com prioridade para SRAM. Os 500 MB de SRAM de alta velocidade na pastilha servem como principal armazenamento de trabalho para a inferência.

(Fonte da imagem: site oficial da NVIDIA)

O compilador e o runtime colocam o conjunto de trabalho ativo (incluindo pesos, ativações e estados KV) na memória on-chip e movem os dados de forma explícita, em vez de depender de cache gerido por hardware. Isto reduz atrasos imprevisíveis e, ao colocar os dados mais sensíveis à latência perto do local do cálculo, ajuda a proporcionar uma latência baixa e estável.

Zhuang Changlei disse ao repórter que a principal vantagem do Groq LPU não é apenas ser rápido, mas sim ter uma latência determinística de “ser sempre igualmente rápido”. Este desenho arquitetónico com determinismo de tempo (Timing Deterministic), requer uma personalização profunda da pipeline de computação, do acesso à memória e do compilador, com um patamar técnico extremamente alto.

Para cenários com exigências rigorosas de tempo real, como controlo industrial e condução autónoma, esta “deterministicidade” é uma necessidade. Já as arquiteturas de GPU genéricas e as ASIC dos fornecedores de cloud, baseadas em um conjunto de instruções simplificado, têm dificuldade em alcançar um nível tão extremo de determinismo, mantendo ao mesmo tempo a flexibilidade.

A pesquisa da Haitong Securities apontou que, em comparação com o CES de janeiro, a posição do Groq LPU na linha geral de produtos da NVIDIA começou a ficar mais clara nesta conferência GTC. A NVIDIA planeia aproveitar a característica de baixa latência do LPU para satisfazer aplicações com exigências elevadas de interatividade, como Agent AI.

Zhuang Changlei também salientou que, quando o gargalo de latência do hardware é ultrapassado, os criadores de modelos terão mais confiança para explorar uma IA interativa mais em tempo real e mais complexa. Por exemplo, hoje em dia um AI Agent pode ainda precisar de alguns segundos para “pensar”; no futuro, poderá realmente alcançar reações ao nível de milissegundos. O modelo já não será “só disparar palavras”, mas sim dialogar contigo de forma fluida e em tempo real, como uma pessoa.

Começo da era da fotónica de silício

Para além do rack NVIDIA Groq 3 LPX, outro grande destaque da plataforma Rubin é o rack Ethernet NVIDIA Spectrum-6 SPX.

Ao utilizar a tecnologia Spectrum-X de silício-fotónica com empacotamento cointegrado eletro-óptico (CPO), em comparação com transceptores tradicionais plug-and-play, a eficiência ótica do sistema melhora até 5 vezes, e a fiabilidade do sistema aumenta 10 vezes.

“Scale-Out (interligação entre racks) é o incremento mais claro neste momento.” Zhuang Changlei indicou que a plataforma Rubin já começou a introduzir switches CPO para resolver o problema do fluxo massivo de dados entre numerosos racks dentro de um centro de dados, prevendo-se que 2027 se torne um marco importante para a expansão do CPO em grande escala.

No GTC, a NVIDIA também revelou que, após a Vera Rubin, a próxima arquitetura importante da NVIDIA será a Feynman. Esta arquitetura incluirá uma nova CPU: a NVIDIA Rosa.

Entre elas, a Rosa é o núcleo da nova plataforma. Esta plataforma combina o novo LPU de próxima geração da NVIDIA, o LP40, com a NVIDIA BlueField-5 e o CX10, através da NVIDIA Kyber para a expansão vertical de cabos de cobre e de empacotamento cointegrado eletro-óptico, e para a expansão horizontal ótica de nível Spectrum da NVIDIA.

“Scale-Up (dentro do rack/entre chips) é o destaque mais visionário.” Zhuang Changlei apontou que, na arquitetura Feynman, a NVIDIA planeia introduzir o NVLink 8 CPO para obter “luz a entrar no rack”, ou seja, usar interligações óticas para substituir parte das ligações tradicionais por backplane de cobre, ligando diretamente GPU e LPU. Isto significa que a interligação ótica está a avançar progressivamente do interior de comutadores mais periféricos para o interior do rack central de computação.

Na perspetiva de Zhuang Changlei, como “vasos sanguíneos” para interligação de poder de computação, o valor dos módulos óticos está a aumentar continuamente à medida que a dimensão dos clusters de agentes inteligentes se expande. À medida que o CPO passa do laboratório para o uso comercial em escala, a era da fotónica de silício já começou. Isto deverá impulsionar diretamente a atualização de toda a cadeia da indústria de hardware de comunicações.

A procura por PCB de alta gama poderá entrar em “erupção”

Como referido anteriormente, para responder às necessidades de baixa latência e longos contextos dos sistemas de agentes inteligentes, a NVIDIA também lançou o rack de aceleração de inferência Groq 3 LPX, que inclui 256 processadores LPU. Em conjunto com a Vera Rubin, a taxa de throughput de inferência por megawatt pode aumentar 35 vezes.

E o envio de racks LPU/LPX em formato de rack irá ter um impacto disruptivo na indústria de PCB, podendo ser a maior etapa além do previsto na cadeia industrial.

PCB, ou seja, placa de circuito impresso, é o suporte onde os componentes eletrónicos se interligam eletricamente. Já se infiltrou praticamente em todos os dispositivos eletrónicos. A indústria chinesa de PCB, enquanto motor central da fabricação eletrónica global, tem registado um crescimento forte.

Graças a vantagens como gestão de custos, padrões ambientais e suporte da cadeia industrial, atualmente o valor de produção da indústria de PCB no continente da China representa mais de 50% a nível global e formou clusters industriais como o do Golfo de Bohai, o Delta do Rio das Pérolas e o Delta do Rio Yangtze.

Do ponto de vista a montante e a jusante, com a explosão da procura por IA, o investimento dos fornecedores de cloud continua a ser revisto em alta, puxando compras de servidores de IA, dispositivos de armazenamento e equipamentos de rede. A CICC (601066) estima que, em 2025, o mercado de PCB correspondente a servidores GPU+ASIC excede 40 mil milhões; em 2026, excede 90 mil milhões, com a taxa de crescimento já tendo duplicado.

“Neste momento, a indústria global de PCB para servidores de IA já se encontra num estado de défice entre oferta e procura de 20%.” Zhuang Changlei reconheceu.

Na perspetiva de Zhuang Changlei, à medida que os racks LPU/LPX entrarem no pico de produção em massa entre o final de 2026 e 2027, a procura por PCB de alta gama irá apresentar uma tendência de “erupção”. “Isto irá agravar ainda mais a escassez de PCB de HDI de alta gama e de PCB com múltiplas camadas, impulsionando toda a cadeia de PCB para entrar num novo ciclo de aumento de capacidade e atualização.”

Por exemplo, devido a que dentro dos racks LPU/LPX é necessário processar um fluxo massivo de dados e uma comunicação com latência extremamente baixa, as exigências para o número de camadas, materiais e processos do PCB são muito elevadas. No caso dos racks LPU da NVIDIA, o valor do PCB de uma placa-mãe pode chegar a 6000 dólares; e o valor total do PCB de um rack completo pode atingir 96 mil dólares (equivalente a quase 700 mil yuan renminbi). Isto representa um aumento superior a 10 vezes face ao valor de PCB de servidores de IA tradicionais.

Além disso, para corresponder à transmissão de sinais de alta velocidade de 224Gbps e acima, bem como para suportar a interligação de alta velocidade de 256 LPU, o PCB tem de adotar bases e designs mais avançados. Em termos de materiais, as bases comuns já não conseguem satisfazer a necessidade; é necessário atualizar para lâminas de cobre nível M9. O reforço do material também muda de tecido eletrónico de fibra de vidro comum (fibra de vidro eletrónica) para um tecido Q-glass cujo valor é 10 vezes superior. O produto da próxima geração já começou mesmo a testar materiais M10.

Zhuang Changlei afirmou que, na arquitetura Rubin Ultra, foi até introduzida uma solução de backplane ortogonal: ao usar PCB com 78 camadas, é possível interligar diretamente GPU e NVSwitch, reduzindo de forma significativa o uso de cabos de cobre. Isto marca que o PCB está a substituir parte do papel antes desempenhado por cabos tradicionais, tornando-se o “esqueleto” de interligação dentro do rack.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar