Sugon lançou uma supernóide de "versão padrão", qual será a futura forma do poder de cálculo para inferência de IA?

Question

Fonte: Caixin MediaO OpenClaw explodiu de repente em popularidade: é tanto uma saída inevitável para o mercado emergente de AI Agent, como também um teste de pressão para o mercado de capacidade de inferência de IA.Na edição de meados de 2026 do Fórum de Zhongguancun, a Sugon lançou o primeiro supernó sem fios em caixa de cabos do mundo, scaleX40. Até então, os supernós eram gigantes com escalas de centenas de GPUs e até de mil GPUs, incluindo o scaleX640 lançado pela Sugon, a NVL72 da NVIDIA e a Ascend 384 da Huawei, entre outros.Estes supernós topo de gama são concebidos para o treino de modelos à escala muito grande. Têm um desempenho forte, mas a barreira de implementação é extremamente elevada: armários de racks personalizados, ligações de cabos complexas e equipas profissionais de operações e manutenção. Com investimentos que facilmente chegam a dezenas de milhões ou mesmo a cem milhões, estão destinados a servir apenas um pequeno número de players de topo, como gigantes da Internet ou grandes empresas estatais centrais e locais.No “lado oposto” dos supernós está o servidor tradicional e dominante de GPU de 8 placas no mercado de inferência. Este tipo de produto é flexível na implementação e controlável em custos, mas, face à necessidade de atualização rápida da capacidade de inferência de IA, o desempenho mostra-se um pouco insuficiente.“Na situação atual, um servidor com 8 GPUs já está muito atrasado. Mesmo que se expanda a escala de interligação para 16 GPUs, continua a não acompanhar o ritmo de desenvolvimento do serviço de inferência de modelos.” O vice-presidente sénior da Sugon Li Bin afirma: “A infraestrutura de capacidade de computação que suporta o desenvolvimento de IA está gradualmente a mudar de uma ‘fábrica de computação’ para uma ‘fábrica de Token’. O principal público-alvo dos sistemas de computação já não é, como antes, suportar sobretudo o treino de modelos; em vez disso, passou a servir principalmente a inferência.”Na era do treino, a métrica central para avaliar um sistema de capacidade de computação era quantas unidades de capacidade de computação ele tinha; já na era da inferência, a métrica torna-se mais importante: “produzir Token com um custo múltiplo-económico”.Imagem gerada por IAA procura de IA se diversifica; a capacidade de inferência ainda não satisfazAtendendo à procura atual do mercado, a estrutura de computação de IA está a sofrer alterações em camadas. Segundo previsões de instituições do setor, o investimento em infraestruturas globais de IA continuará a crescer a um ritmo relativamente rápido, mas a procura incremental está a deslocar-se, passo a passo, dos supergrupos de escala muito grande para cenários empresariais de nível de empresa e aplicações setoriais.Perante esta tendência, o foco do provisionamento de capacidade de computação já não é apenas procurar o limite máximo de escala, passando a dar mais atenção ao equilíbrio entre desempenho, custos e flexibilidade. Há um consenso generalizado na indústria: uma escala de dezenas de placas é suficiente para satisfazer a procura de capacidade de computação para treino de modelos, inferência e testes de desenvolvimento na maioria dos cenários de indústria. Este é também o intervalo da maior “coincidência” entre eficiência e investimento.No entanto, a evolução das necessidades da camada de aplicações de IA ocorre demasiado depressa. Incluindo a explosão do OpenClaw, representativo dos AI Agent: ao mesmo tempo que está a mudar as aplicações tradicionais de indústrias, também cria uma necessidade de reestruturação do lado da oferta atual de capacidade de computação.A primeira é o gargalo da comunicação. Agora, com modelos MoE, a comunicação tornou-se o ponto-chave central para melhorar a taxa de utilização da computação; em particular, a incerteza na distribuição dos especialistas faz com que haja muita comunicação trans-card e trans-máquina, o que atravessa diretamente a arquitetura tradicional de computação do servidor de 8 placas.A segunda é o gargalo de memória (VRAM). A janela de contexto continua a expandir-se. A capacidade de memória de contexto longo necessária ao OpenClaw também faz aumentar de forma crescente a procura por grande VRAM e por KV Cache. Esta é igualmente uma limitação à qual os servidores tradicionais de 8 placas não conseguem ultrapassar.A terceira é o gargalo da taxa de utilização da capacidade de computação. A taxa de utilização da computação e o custo de implementação da inferência estão praticamente em proporção inversa. Os clusters tradicionais, em geral, sofrem do problema de taxa de utilização insuficiente. O desafio central não é apenas acumular hardware, mas sim, através de inovação na arquitetura de hardware, em conjunto com esforços coordenados de engenharia de sistemas e engenharia de otimização, alcançar uma melhoria dupla: eficiência do sistema e capacidade de computação efetiva.A quarta é o gargalo do ecossistema. O ecossistema de capacidade de computação nacional é complexo, com muitos fornecedores e uma cadeia industrial longa. A dificuldade de cooperação industrial não é pequena. Por isso, é necessário recorrer a uma arquitetura de computação aberta para ligar de ponta a ponta a cadeia industrial inteira, incluindo chips, modelos e aplicações, construindo uma base de computação aberta, fácil de usar, “ligar e usar” e economicamente acessível para todos.A Sugon pretende responder ao mercado com um “equipamento por defeito” de supernó com 40 placas. “A zona doce das 40 placas é algo que descobrimos e explorámos através de pesquisas com vários clientes.” O vice-presidente da Sugon, Li Liu, afirma: “Com a escala de parâmetros e os cenários de uso dos modelos mainstream atuais, 32-40 placas já conseguem cobrir a maioria das necessidades das indústrias; ao mesmo tempo, permite também equilibrar custos e desempenho.”O scaleX40 integra 40 GPUs num único nó; a capacidade de computação total excede 28PFLOPS (precisão FP8). A capacidade de memória HBM excede 5TB e a largura de banda de acesso à memória ultrapassa 80TB/s. A fiabilidade do sistema foi melhorada para 99,99%.A configuração de escala do scaleX40, por um lado, tem capacidade para suportar treino e inferência de grandes modelos, e por outro não traz uma pressão excessiva de investimento. Para baixo, consegue acomodar 32 placas para satisfazer treino, inferência e testes de desenvolvimento de pequena e média escala; para cima, pode ser expandido para formar clusters ainda maiores.Li Bin fez as contas: “O investimento em equipar 5 máquinas de 8 placas somadas a vários custos é basicamente equivalente ao do scaleX40, mas o scaleX40 consegue aumentar o desempenho de treino em 120% e, em termos de inferência, a melhoria máxima chega a 330%.”Do DeepSeek ao OpenClaw, novos pontos de viragem na capacidade de computação“Token precisa de capacidade de computação para produzir resultados, mas as dimensões e métricas de avaliação se tornaram mais numerosas.” Li Bin considera: “Para os utilizadores comuns, o que importa é a velocidade de resposta: fez-se uma pergunta, será que consegue dar retorno rapidamente? Para os operadores dos sistemas de capacidade de computação, é preciso considerar quantos utilizadores consegue suportar simultaneamente em acesso concorrente, ao mesmo tempo que satisfaz a experiência básica de utilização.”O responsável do departamento de desenvolvimento de frameworks de IA do Instituto Zhiyuan, Ao Yulong, também propôs: “No futuro, para o lado da oferta de capacidade de computação, a métrica-chave é como converter capacidade de computação em Token efetivo, e não em Token inefetivo. Quem conseguir reduzir este custo, é o verdadeiro vencedor.”O design do scaleX40 é orientado por estas novas necessidades. A grande memória de 144G suporta janelas de contexto longo; o mecanismo de cache de múltiplos níveis de KV Cache atende às necessidades de grande VRAM dos cenários de inferência; e a interligação de primeira camada com alta largura de banda para 40 placas recolhe o tráfego out-to-out da comunicação de especialistas dentro de um único nó. Estas caraterísticas são concebidas para, sob o controlo de custos, maximizar a eficiência de produção de Token por unidade de capacidade de computação.O design de caixa com cabos sem fios é também uma grande diferenciação do scaleX40. Um ponto doloroso central dos supernós tradicionais é a complexidade de implementação. Por exemplo, tomando o NVL72 da NVIDIA: este utiliza um esquema de ligação por cabos de cobre; entre armários de racks são necessários muitos cabos de interligação. Não só isso impõe requisitos rigorosos ao ambiente da sala de servidores, como também prolonga o ciclo de implementação e, no pós-implementação, a taxa de falhas da operação e manutenção é elevada.A solução do scaleX40 é semelhante à solução mais recente divulgada este ano pela NVIDIA na conferência GTC, através da tecnologia de barramento para realizar expansão Scale-up; os nós de computação e os nós de comutação adotam uma arquitetura ortogonal de cabos sem fios para conexão direta (plug-in).Este desenho traz múltiplos benefícios. Em primeiro lugar, o desempenho da tecnologia de barramento atinge mais de 10 vezes o da rede tradicional NDR, suportando endereçamento unificado de semântica de memória e de memória de vídeo (VRAM). Em segundo lugar, ao nível de uma camada de rede, a latência unidirecional P2P é reduzida para menos de cem nanossegundos; em comparação com uma rede em duas camadas, a latência diminui mais de 30% e a taxa de falhas reduz-se em 30%-50%.Além disso, o scaleX40 adota um design normalizado em caixa de 19 polegadas. A altura de uma unidade é apenas 16U, permitindo colocá-lo diretamente em racks mainstream, compatível com o ambiente atual dos data centers, sem necessidade de modificações adicionais.“Muitos produtos no passado eram, ou com armários demasiado grandes, ou não normalizados, ou com uma modificação muito complexa da sala de servidores.” Li Liu diz: “O scaleX40 pode ser colocado em racks padrão; liga-se à alimentação e ao equipamento de arrefecimento da sala de servidores padrão, reduzindo muito os limiares de implementação e utilização.”O responsável de tecnologia de rede para computação do Instituto de Pesquisa de Telecomunicações da China, Wang Zixiaoxuan, também afirma: “Ao fornecer serviços de inferência na forma de supernó, o desempenho aumenta cerca de 2,6 vezes face ao servidor tradicional de 8 GPUs. A capacidade ‘ligar e usar’ do supernó é significativamente reforçada; a complexidade de configuração da rede Scale-out diminui em ordens de grandeza. Isto é de grande significado para a aplicação em grande escala de todo o setor.”Num nível ainda mais profundo, o lançamento do scaleX40 também reflete a maturidade do ecossistema nacional de capacidade de computação. Da cadeia de chips ao software de sistemas, do armazenamento à rede, da biblioteca de operadores à biblioteca de comunicação: está a formar-se uma cadeia industrial completa. Como disse Li Bin: “Na totalidade do ecossistema de computação e IA doméstico, desde chips até software de sistemas, até modelos e aplicações de camada superior, estamos a fazer cooperação vertical entre camadas. Através do acoplamento e coordenação ao longo da direção vertical, procuramos obter uma eficiência melhor.”Quando os supernós começam a ser implantados e utilizados de forma mais simples, e quando centenas e milhares de indústrias conseguem obter capacidade de computação de alto nível a um custo razoável, então, talvez, a aplicação em grande escala da IA chinesa dê realmente o seu passo-chave. (Autor do artigo | Zhang Shuai, Editor | Yang Lin)Declaração especial: O conteúdo acima representa apenas as opiniões ou posições do autor, não representando as opiniões ou posições da Sina Finance Headlines. Caso seja necessário contactar a Sina Finance Headlines devido a problemas com conteúdo da obra, direitos de autor ou outros, deve fazê-lo no prazo de 30 dias após a publicação do conteúdo acima.																														                                                                    Notícias abundantes e análises precisas — tudo na aplicação Sina Finance APP

Sugon lançou uma supernóide de "versão padrão", qual será a futura forma do poder de cálculo para inferência de IA?

Tópicos em destaque

GateLaunchesPreIPOS

GateSpotDerivativesBothTop3

IsraelStrikesIranBTCPlunges

OilEdgesHigher

USIranCeasefireTalksFaceSetbacks

Gate Fun tendência

MMS

MEMES

CEA

Creator Empowerment Allia

leopard

Laughing leopard

Ottmn

OttomanEmpire

XGYF

云锋

Fixar