Autores: Su Yang, Hao Boyang; Fonte: Tencent Technology
Como 'homens de venda de pás' na era da IA, Huang Renxun e sua NVIDIA acreditam firmemente que o poder de cálculo nunca dorme.
Huang Renxun stated in the GTC speech that reasoning has increased the demand for computing power by 100 times.
Na conferência GTC de hoje, Huang Renxun apresentou a nova GPU Blackwell Ultra, juntamente com a SKU do servidor derivada para inferência e Agent, baseada nela, incluindo a família RTX baseada na arquitetura Blackwell, tudo isso está relacionado com a potência de cálculo, mas o mais importante a seguir é como consumir a potência de cálculo de forma contínua e eficiente.
Aos olhos de Huang Renxun, AGI requer poder de computação, robôs com inteligência corporificada requerem poder de computação, e a construção do Omniverso e do modelo do mundo requerem um fluxo constante de poder de computação. Quanto ao esforço final da humanidade para construir um "universo paralelo" virtual, a resposta da Nvidia é: 100 vezes mais do que no passado.
Para apoiar seu ponto de vista, Huang Renxun mostrou um conjunto de dados no local do GTC - em 2024, as quatro principais nuvems dos Estados Unidos compraram um total de 1,3 milhões de chips de arquitetura Hopper, em 2025, esse número disparou para 3,6 milhões de GPUs Blackwell.
Aqui estão alguns pontos-chave da conferência GTC 2025 da NVIDIA compilados pela Tencent Technology:
Blackwell Family Bucket está online
1)O 'bomba nuclear' anual Blackwell Ultra está espremendo a pasta de dentes
No ano passado, a NVIDIA lançou a arquitetura Blackwell na GTC e lançou o chip GB200. Este ano, o nome oficial foi ajustado, não é chamado de GB300 como rumores anteriores, mas é diretamente chamado de Blakwell Ultra.
Mas em termos de hardware, é simplesmente a substituição da memória HBM por uma nova no ano passado. Em poucas palavras, Blackwell Ultra = versão de grande memória Blackwell.
Blackwell Ultra é composto por dois chips TSMC N4P (5nm), arquitetura de chip Blackwell + CPU Grace, e é combinado com memória interna HBM3e de 12 camadas mais avançada, aumentando a memória de vídeo para 288GB, suportando a quinta geração de NVLink, com largura de banda de interconexão de chips de 1.8TB/s, semelhante à geração anterior.
Parâmetros de desempenho históricos do NVLink
Com base no upgrade de armazenamento, a capacidade de cálculo de precisão FP4 da GPU Blackwell pode atingir 15PetaFLOPS, e a velocidade de inferência baseada no mecanismo de Aceleração de Atenção é 2,5 vezes mais rápida do que o chip de arquitetura Hopper.
2)Blackwell Ultra NVL72:AI推理专用机柜
Blackwell Ultra NVL72 official picture
À semelhança do GB200 NVL72, a NVIDIA também lançou este ano um produto semelhante, o gabinete Blackwell Ultra NVL72, composto por um total de 18 bandejas de computação, cada uma contendo 4 GPUs Blackwell Ultra + 2 CPUs Grace, num total de 72 GPUs Blackwell Ultra + 36 CPUs Grace, com uma memória de vídeo de 20TB, uma largura de banda total de 576TB/s, além de 9 bandejas de comutação NVLink (18 chips de comutação NVLink), com uma largura de banda NVLink entre nós de 130TB/s.
O rack integra 72 placas de rede CX-8, fornecendo largura de banda de 14.4TB/s, enquanto as placas Quantum-X800 InfiniBand e Spectrum-X 800G Ethernet podem reduzir a latência e a oscilação, suportando clusters de IA em grande escala. Além disso, o rack também integra 18 placas BlueField-3 DPU para melhorar redes multi-inquilinos, segurança e aceleração de dados.
A NVIDIA afirmou que este produto é especialmente personalizado para a era da inferência de IA, com aplicações que incluem IA de inferência, Agentes e IA física utilizada em robôs e na síntese de dados para treino de condução autónoma, em comparação com a geração anterior do produto GB200 NVL72, a performance de IA aumentou 1,5 vezes, e em comparação com o DGX na arquitetura Hopper, pode proporcionar um aumento de receita 50 vezes maior para os centros de dados.
Com base nas informações fornecidas oficialmente, a inferência dos 671 bilhões de parâmetros DeepSeek-R1, com base no produto H100, pode atingir 100 tokens por segundo, enquanto a adoção do esquema Blackwell Ultra NVL72 pode alcançar 1000 tokens por segundo.
Convertendo para tempo, a mesma tarefa de raciocínio, o H100 precisa de 1,5 minutos para ser concluído, enquanto o Blackwell Ultra NVL72 pode ser concluído em 15 segundos.
Parâmetros de hardware Blackwell Ultra NVL72 e GB200 NVL72
Com base nas informações fornecidas pela NVIDIA, o produto relacionado Blackwell NVL72 está previsto para ser lançado no segundo semestre de 2025. Os clientes incluem fabricantes de servidores, provedores de nuvem e serviços de aluguel de capacidade de computação.
Fabricante do servidor
Cisco/Dell/HPE/Lenovo/超微等15家制造商Fábrica de nuvens
AWS/Google Cloud/Azure/Oracle e outras plataformas principais de nuvem
Fornecedor de Serviços de Aluguer de Hashrate
CoreWeave/Lambda/Yotta等
( 3) Visualize o chip GPU Rubin real "bomba nuclear" com antecedência
De acordo com o roteiro da NVIDIA, o palco principal do GTC2025 será o Blackwell Ultra.
No entanto, Huang Renxun também aproveitou a oportunidade para anunciar o próximo GPU da próxima geração baseado na arquitetura Rubin, que será lançado em 2026, e o gabinete mais poderoso Vera Rubin NVL144 - 72 CPUs Vera + 144 GPUs Rubin, com 288GB de memória HBM4, largura de banda de memória de 13TB/s, emparelhado com a sexta geração de NVLink e placa de rede CX9.
Quão forte é este produto? A capacidade de inferência de precisão FP4 atinge 3.6ExaFLOPS, e a capacidade de treinamento de precisão FP8 também atinge 1.2ExaFLOPS, o desempenho é 3.3 vezes o do Blackwell Ultra NVL72.
Se achar que não é suficiente, não se preocupe, em 2027 haverá o gabinete Rubin Ultra NVL576 ainda mais poderoso, com capacidade de raciocínio de FP4 e capacidade de treinamento de FP8, 15 ExaFLOPS e 5 ExaFLOPS, respectivamente, 14 vezes mais do que o Blackwell Ultra NVL72.
Os parâmetros Rubin Ultra NVL144 e Rubin Ultra NVL576 fornecidos oficialmente pela Nvidia
( 4)Blackwell Ultra edition DGX Super POD 'fábrica de supercomputação'
Para aqueles clientes que atualmente não são atendidos pelo Blackwell Ultra NVL72 e não precisam construir um grande cluster de IA, a solução da NVIDIA é a fábrica de supercomputadores AI DGX Super POD, baseada no Blackwell Ultra e pronta para uso.
Como uma fábrica de supercomputação AI plug-and-play, o DGX Super POD destina-se principalmente a cenários de IA gerativa, agentes de IA e simulação física, cobrindo a demanda de expansão de potência computacional em todo o processo, desde pré-treinamento até produção, com a Equinix sendo o primeiro provedor de serviços a fornecer suporte de infraestrutura de resfriamento líquido/ar.
Existem duas versões do DGX Super POD, baseadas na personalização do Blackwell Ultra:
DGX SuperPOD com DGX GB300 (Grace CPU ×1 + Blackwell Ultra GPU ×2) integrado, num total de 288 CPUs Grace + 576 GPUs Blackwell Ultra, oferecendo 300 TB de memória rápida, com uma potência computacional de 11.5 ExaFLOPS em precisão FP4
DGX SuperPOD com DGX B300 integrado, esta versão não inclui o chip Grace CPU, tem espaço de expansão adicional e utiliza um sistema de refrigeração a ar, principalmente para uso em data centers empresariais comuns
( 5)DGX Spark与DGX Station
Em janeiro deste ano, a NVIDIA revelou um produto conceitual de PC de IA com um preço de 3000 dólares na CES - o Project DIGITS, que agora tem o nome oficial de DGX Spark.
Em termos de especificações do produto, equipado com o chip GB10, a potência de cálculo sob precisão FP4 pode atingir 1PetaFlops, com 128GB de memória LPDDR5X integrada, placa de rede CX-7, armazenamento NVMe de 4TB, executando o sistema operacional DGX OS baseado em Linux personalizado, suportando estruturas como Pytorch, e pré-instalando algumas ferramentas de desenvolvimento de software básicas de IA fornecidas pela NVIDIA, capaz de executar modelos com 200 bilhões de parâmetros. As dimensões da máquina são semelhantes às do Mac mini, dois DGX Spark podem ser interconectados e podem executar modelos com mais de 400 bilhões de parâmetros.
Embora nós o chamemos de PC AI, na verdade, ainda pertence à categoria de supercomputação, por isso foi colocado na série de produtos DGX, em vez de produtos de consumo como RTX.
No entanto, algumas pessoas criticaram este produto, alegando que o desempenho de propaganda e usabilidade do FP4 é baixo. Quando convertido para uma precisão FP16, ele só pode competir com o RTX 5070 ou mesmo o Arc B580 de 250 dólares, tornando-o muito baixo em termos de custo-benefício.
computador DGX Spark e estação de trabalho DGX Station
Para além do lançamento oficial do DGX Spark, a NVIDIA também lançou uma estação de trabalho de IA baseada no Blackwell Ultra, equipada com uma CPU Grace e uma GPU Blackwell Ultra, juntamente com 784GB de memória unificada, placa de rede CX-8, fornecendo uma potência de IA de 20 PetaFlops (não oficialmente marcada, teoricamente também com precisão FP4).
( 6)RTX varre AI PC, e ainda se infiltra nos centros de dados
Os produtos SKU apresentados anteriormente são baseados no CPU Grace e GPU Blackwell Ultra, todos eles produtos de nível empresarial. Levando em consideração o incrível desempenho de produtos como o RTX 4090 em inferência de IA, a NVIDIA reforçou ainda mais a integração da série Blackwell e RTX nesta GTC, lançando uma série de GPUs relacionadas a PC de IA com memória GDDR7 integrada, abrangendo cenários como laptops, desktops e até mesmo data centers.
GPU de desktop, incluindo RTX PRO 6000 Blackwell versão para estações de trabalho, RTX PRO 6000 Blackwell Max-Q versão para estações de trabalho, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell e RTX PRO 4000 Blackwell
GPU de laptop: RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX, PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell e RTX PRO 500 Blackwell
Centro de Dados GPU: NVIDIA RTX PRO 6000 Blackwell versão do servidor
A NVIDIA criou um 'conjunto completo' de IA para computação empresarial
Apenas algumas das SKUs personalizadas para diferentes cenários baseadas no chip Blackwell Ultra foram mencionadas acima, desde estações de trabalho até clusters de data center. A NVIDIA chama isso de "Família Blackwell", que pode ser traduzido como "Família Blackwell" em chinês, ou seja, "Blackwell Family".
英伟达Photonics:站在队友肩膀上的CPO系统
O conceito de módulos óptico-elétricos (CPO) é simplesmente encapsular em conjunto chips de comutação e módulos ópticos, que podem converter sinais de luz em sinais elétricos, aproveitando ao máximo o desempenho de transmissão de sinais de luz.
Antes disso, a indústria tem vindo a discutir há muito tempo os produtos de comutação de rede CPO da NVIDIA, mas ainda não foram lançados. Huang Renxun também deu uma explicação no local - devido ao uso generalizado de fibras ópticas nos data centers, o consumo de energia da rede óptica corresponde a 10% dos recursos de computação, e o custo da conexão óptica afeta diretamente a escalabilidade da rede Scale-Out e o aumento da densidade de desempenho da IA nos nós de cálculo.
Os parâmetros dos dois chips de encapsulamento de silício óptico Quantum-X e Spectrum-X exibidos na GTC
Este ano, a NVIDIA GTC lançou o chip encapsulado Quantum-X e Spectrum-X, bem como três produtos de switch derivados: Quantum 3450-LD, Spectrum SN6810 e Spectrum SN6800.
Quantum 3450-LD: 144 portas de 800GB/s, largura de banda do backplane de 115TB/s, refrigeração líquida
Spectrum SN6810: 128 portas de 800GB/s, largura de banda do backplane de 102.4TB/s, líquido refrigerante
*Spectrum SN6800: 512 portas de 800GB/s, largura de banda da placa traseira de 409.6TB/s, líquido
Os produtos acima são todos classificados sob "NVIDIA Photonics", que a NVIDIA afirma ser uma plataforma de co-desenvolvimento baseada na parceria CPO, por exemplo, seu modulador de anel micro (MRM) é otimizado com base no mecanismo óptico da TSMC, suportando modulação a laser de alta potência e alta eficiência energética, e usando conectores de fibra óptica removíveis.
Curiosamente, de acordo com informações anteriores da indústria, o modulador de anel microscópico (MRM) da TSMC foi desenvolvido com base na tecnologia de processo de 3nm e no CoWoS da Broadcom.
De acordo com os dados fornecidos pela NVIDIA, o switch de fotônica integrado do módulo óptico tem um desempenho 3,5 vezes maior do que o switch tradicional, a eficiência de implantação pode ser aumentada em 1,3 vezes, e a elasticidade de expansão é mais de 10 vezes.
Eficiência do Modelo PK DeepSeek: Ecossistema de Software Impulsiona o Agente de IA
Huang Renxun desenha o 'bolo' da infraestrutura de IA no local
Devido a esta GTC de 2 horas, Huang Renxun só falou cerca de meia hora sobre software e inteligência corporal. Portanto, muitos detalhes foram complementados através da documentação oficial, e não totalmente do local.
( 1)Nvidia Dynamo, a new CUDA built by Nvidia in the inference field
Nvidia Dynamo é definitivamente o destaque do lançamento do software.
É um software de código aberto projetado especificamente para acelerar inferências, treinamentos e operações em todo o datacenter. Os dados de desempenho do Dynamo são impressionantes: com a arquitetura Hopper existente, o Dynamo pode dobrar o desempenho do modelo Llama padrão. Para modelos de inferência especializados como o DeepSeek, a otimização inteligente de inferência do NVIDIA Dynamo pode aumentar a quantidade de tokens gerados por GPU em mais de 30 vezes.
As melhorias no Dynamo são principalmente devido à descentralização. Ele distribui as diferentes fases de cálculo do LLM (compreensão da consulta do usuário e geração da melhor resposta) para diferentes GPUs, permitindo que cada fase seja otimizada independentemente, aumentando o throughput e acelerando a velocidade de resposta.
A arquitetura do sistema Dynamo
Por exemplo, durante a fase de processamento de entrada, que é a fase de pré-preenchimento, o Dynamo é capaz de alocar recursos de GPU de forma eficiente para processar a entrada do usuário. O sistema usará vários conjuntos de GPUs para processar consultas do usuário em paralelo, esperando que o processamento da GPU seja mais distribuído e mais rápido. O Dynamo usa o modo FP4 para invocar várias GPUs para "ler" e "entender" o problema do usuário em paralelo ao mesmo tempo, com um grupo lidando com o conhecimento de fundo da Segunda Guerra Mundial, outro grupo lidando com o material histórico relacionado às "causas", e um terceiro grupo lidando com a linha do tempo e eventos "decorridos".
Na geração de tokens de saída, ou seja, na fase de decodificação, a GPU precisa ser mais focada e coerente. Em comparação com o número de GPUs, este estágio requer mais largura de banda para absorver as informações de pensamento do estágio anterior, por isso também requer mais leituras de cache. O Dynamo otimiza a comunicação entre GPUs e a alocação de recursos para garantir uma geração de resposta consistente e eficiente. Por um lado, ele faz pleno uso da capacidade de comunicação NVLink de alta largura de banda da arquitetura NVL72 para maximizar a eficiência da geração de tokens. Por outro lado, o "Smart Router" direciona as solicitações para a GPU que armazenou em cache o ( de chave-valor de KV) relevante, o que evita computação dupla e melhora muito a velocidade de processamento. Ao evitar a computação dupla, alguns recursos da GPU são liberados e o Dynamo pode alocar dinamicamente esses recursos ociosos para novas solicitações de entrada.
Esta arquitetura é muito semelhante à arquitetura Mooncake de Kimi, mas a NVIDIA forneceu mais suporte na infraestrutura subjacente. O Mooncake pode aumentar cerca de 5 vezes, mas o Dynamo mostra melhorias mais significativas em termos de inferência.
Por exemplo, entre as várias inovações importantes do Dynamo, o "GPU Planner" pode ajustar dinamicamente a alocação de GPU com base na carga, a "biblioteca de comunicação de baixa latência" otimiza a transferência de dados entre GPUs e o "gerenciador de memória" move inteligentemente os dados de inferência entre dispositivos de armazenamento em diferentes níveis de custo, reduzindo ainda mais os custos operacionais. O roteador inteligente, sistema de roteamento LLM com capacidade de percepção, direciona as solicitações para a GPU mais adequada, reduzindo cálculos repetitivos. Todas essas capacidades otimizam a carga da GPU.
Usar este conjunto de software de sistemas de inferência pode ser escalado de forma eficiente para grandes clusters de GPU, permitindo que uma única consulta de IA seja escalada perfeitamente para até 1000 GPUs, para aproveitar ao máximo os recursos do centro de dados.
Para os operadores de GPU, esta melhoria resulta numa diminuição significativa do custo por milhão de tokens, enquanto aumenta consideravelmente a capacidade de produção. Ao mesmo tempo, os utilizadores individuais recebem mais tokens por segundo, com uma resposta mais rápida e uma melhoria na experiência do utilizador.
Com o Dynamo, atinge-se o ponto ideal entre o débito e a velocidade de resposta do servidor.
Ao contrário do CUDA como base subjacente para a programação da GPU, o Dynamo é um sistema de nível mais alto, focado na alocação e gestão inteligente de cargas de raciocínio em grande escala. Ele é responsável pela camada de agendamento distribuído de otimização de raciocínio, situada entre a aplicação e a infraestrutura de cálculo subjacente. No entanto, tal como o CUDA revolucionou completamente o cenário do cálculo da GPU há mais de uma década, o Dynamo também pode ser bem-sucedido em estabelecer um novo paradigma de eficiência em software e hardware de raciocínio.
O Dynamo é totalmente de código aberto e suporta todos os principais frameworks, desde PyTorch até Tensor RT. Ser de código aberto não diminui sua posição defensiva. Assim como o CUDA, ele só é eficaz nas GPUs da NVIDIA e faz parte do conjunto de software de inferência de IA da NVIDIA.
Com esta atualização de software, a NVIDIA está fortalecendo suas defesas contra chips de inferência especializados, como o Groq. É necessário um equilíbrio entre hardware e software para liderar a infraestrutura de inferência.
( 2)O novo modelo Llama Nemotron é eficiente, mas ainda não consegue superar o DeepSeek.
Embora seja impressionante em termos de utilização do servidor, a Dynamo ainda tem alguma diferença em relação à NVIDIA no treinamento de modelos.
A NVIDIA apresentou o novo modelo Llama Nemotron na GTC desta vez, com foco em eficiência e precisão. Derivado da série de modelos Llama, este modelo foi especialmente ajustado pela NVIDIA e, em comparação com o Llama original, foi otimizado com algoritmos de poda, tornando-o mais leve, com apenas 48B. Ele também possui capacidade de raciocínio semelhante à o1. Assim como o Claude 3.7 e o Grok 3, o modelo Llama Nemotron possui um interruptor de capacidade de raciocínio embutido, que os usuários podem optar por ativar ou desativar. Esta série é dividida em três níveis: Nano de entrada, Super de gama média e Ultra de topo de gama, cada um deles destinado a diferentes necessidades empresariais em termos de escala.
Quando se trata de eficiência, o conjunto de dados de ajuste fino deste modelo é composto inteiramente por dados sintéticos gerados pela própria NVIDIA, com um total de cerca de 60B tokens. Em comparação com o treinamento completo de 1,3 milhões de horas da DeepSeek V3, este modelo com apenas 1/15 da quantidade de parâmetros da DeepSeek V3 levou apenas 360 mil horas de treinamento de ajuste fino. A eficiência de treinamento é de um nível inferior à DeepSeek.
Em termos de eficiência de raciocínio, o modelo Llama Nemotron Super 49B é de fato muito melhor do que a geração anterior, com uma capacidade de throughput de token cinco vezes maior do que a do Llama 3 70B. Sob uma única GPU em um data center, ele pode processar mais de 3000 tokens por segundo. No entanto, de acordo com os dados divulgados no último dia do Open Source Day da DeepSeek, cada nó H800 tem uma média de throughput de cerca de 73,7k tokens/s durante o período de pré-povoamento (incluindo hits de cache) ou cerca de 14,8k tokens/s durante a decodificação. A diferença entre os dois ainda é bastante evidente.
Em termos de desempenho, o Llama Nemotron Super de 49B supera o modelo Llama 70B destilado pelo DeepSeek R1 em todos os aspectos. No entanto, considerando o frequente lançamento de modelos de pequenos parâmetros de alta potência, como o Qwen QwQ 32B, é provável que o Llama Nemotron Super tenha dificuldade em se destacar entre esses modelos que podem competir com o R1.
O pior de tudo é que este modelo é uma confirmação definitiva de que o DeepSeek pode ser melhor do que a NVIDIA em treinar e ajustar as GPUs durante o processo de treino.
( 3)O novo modelo é apenas uma entrada no ecossistema de AI Agent da NVIDIA, o AIQ da NVIDA é o prato principal
Por que a NVIDIA está desenvolvendo um modelo de inferência? Isso é principalmente para se preparar para o próximo ponto de explosão de AI que Huang valoriza - AI Agent. Desde que grandes empresas como OpenAI, Claude, etc., gradualmente estabeleceram as bases do Agente através de DeepReasearch, MCP, a NVIDIA claramente também acredita que a era do Agente chegou.
O projeto NVIDA AIQ é a tentativa da NVIDIA. Ele fornece diretamente um fluxo de trabalho pronto para uso para um agente de IA planejador com o modelo de raciocínio Llama Nemotron como núcleo. Este projeto pertence ao nível Blueprint da NVIDIA, o que se refere a um conjunto de fluxos de trabalho de referência pré-configurados, é um modelo de modelo que ajuda os desenvolvedores a integrar mais facilmente a tecnologia e bibliotecas da NVIDIA. E o AIQ é o modelo de agente fornecido pela NVIDIA.
Assim como o Manus, ele integra motores de busca na web e outras ferramentas externas, como agentes de IA profissionais, o que permite que o próprio Agente possa pesquisar e usar várias ferramentas. Por meio do planeamento do modelo de raciocínio Llama Nemotron, reflete e otimiza soluções para concluir as tarefas dos utilizadores. Além disso, suporta a construção de fluxos de trabalho com vários Agentes.
Sistema ServiceNow construído com base neste modelo
Além disso, é mais avançado do que o Manus, pois possui um sistema RAG complexo para documentos corporativos. Este sistema inclui uma série de etapas, como extração, incorporação, armazenamento vetorial, reordenação e processamento final por LLM, garantindo que os dados corporativos sejam utilizados pelo Agente.
Além disso, a NVIDIA lançou a plataforma de dados de IA, conectando modelos de inferência de IA aos sistemas de dados corporativos, formando um DeepReasearch para os dados corporativos. Isso impulsiona uma grande evolução na tecnologia de armazenamento, transformando os sistemas de armazenamento de meros depósitos de dados em plataformas inteligentes com capacidade de inferência e análise ativa.
A composição da Plataforma de Dados de IA
Além disso, a AIQ enfatiza muito o mecanismo de observabilidade e transparência. Isso é muito importante para a segurança e melhorias futuras. A equipe de desenvolvimento pode monitorar as atividades do Agente em tempo real e otimizar continuamente o sistema com base nos dados de desempenho.
Em geral, a NVIDA AIQ é um modelo de fluxo de trabalho de agente padrão que fornece várias capacidades de agente. Pode ser considerado um software de construção de agentes do tipo Dify mais simplificado, evoluindo para a era da inferência.
Lançamento do modelo base do robô humanoides, a NVIDIA quer criar um ecossistema totalmente integrado.
( 1)Cosmos, permitindo que a inteligência encarnada compreenda o mundo
Se a Nvidia se concentrar em Agent ou apostar agora, sua disposição no campo da inteligência corporal pode ser considerada uma integração total no futuro.
A NVIDIA organizou os três elementos essenciais para modelos, dados e potência computacional.
Comecemos com o modelo. Esta edição do GTC lançou a versão atualizada do modelo de base de inteligência encarnada Cosmos, que foi anunciado em janeiro deste ano.
Cosmos é um modelo que pode prever o futuro a partir do presente, através de imagens. Pode gerar vídeos detalhados a partir de dados de entrada de texto/imagem e prever a evolução da cena combinando seu estado atual (imagem/vídeo) com a ação (dica/sinal de controle). Como isso requer compreensão das leis físicas causais do mundo, a NVIDIA chama o Cosmos de modelo fundamental do mundo (WFM).
Para a inteligência encarnada, a capacidade mais fundamental é prever o impacto do comportamento da máquina no mundo exterior. Somente assim o modelo pode planejar o comportamento com base nas previsões, tornando o modelo do mundo a base da inteligência encarnada. Com este modelo de previsão do mundo que muda o comportamento/tempo-físico do mundo como base, o modelo pode atender a diversas necessidades práticas de inteligência encarnada com formas físicas, através do ajuste fino de conjuntos de dados específicos, como direção autônoma e tarefas de robôs.
O modelo completo consiste em três partes, sendo a primeira parte o Cosmos Transfer, que converte entrada de texto estruturado de vídeo em saída de vídeo realista controlável, gerando dados de síntese em grande escala a partir do nada com texto. Isso resolve o maior obstáculo atual da inteligência encarnada - a escassez de dados. Além disso, essa geração é uma geração "controlável", o que significa que os usuários podem especificar parâmetros específicos (como condições climáticas, propriedades de objetos, etc.), e o modelo ajustará os resultados gerados correspondentes, tornando o processo de geração de dados mais controlável e direcionado. Todo o processo também pode ser combinado por Ominiverse e Cosmos.
Cosmos construído em cima do Ominiverso para simulação da realidade
A segunda parte do Cosmos Predict pode gerar estados virtuais do mundo a partir de entradas multimodais, suportando geração de múltiplos quadros e previsão de trajetória de movimento. Isso significa que, dadas as condições iniciais e finais, o modelo pode gerar um processo intermediário razoável. Esta é a capacidade central de cognição e construção do mundo físico.
A terceira parte é o Cosmos Reason, que é um modelo aberto e totalmente personalizável, com capacidade de perceção espaço-temporal, compreendendo dados de vídeo através de raciocínio de cadeia mental e prevendo resultados interativos. Isso é uma capacidade aprimorada de planeamento e previsão de resultados comportamentais.
Com a sobreposição progressiva dessas três habilidades, o Cosmos pode realizar a cadeia completa de comportamentos, desde a entrada de token de imagem real + token de comando de texto até a saída de token de ação da máquina.
Este modelo básico deve ter um desempenho bastante bom. Apenas dois meses após o lançamento, as três principais empresas, 1X, Agility Robotics e Figure AI, já começaram a usá-lo. Embora os grandes modelos de linguagem não estejam na vanguarda, a inteligência artificial encarnada da NVIDIA está realmente entre os primeiros.
( 2)Isaac GR00T N1, o primeiro modelo base do robô humanoide do mundo
Com o Cosmos, a NVIDIA naturalmente ajustou o modelo base Isaac GR00T N1 para treinar especificamente robôs humanoides.
Ele adota uma arquitetura de sistema duplo, com um 'sistema 1' de resposta rápida e um 'sistema 2' de raciocínio profundo. Seu ajuste fino abrangente permite lidar com tarefas gerais como agarrar, movimentar, operar com dois braços, etc. Além disso, pode ser totalmente personalizado para robôs específicos, permitindo que os desenvolvedores de robôs realizem o treinamento posterior com dados reais ou sintéticos. Isso significa que esse modelo pode ser implementado em uma variedade de robôs com formas muito diferentes.
Por exemplo, a NVIDIA colaborou com o Google DeepMind e a Disney no desenvolvimento do motor de física Newton, utilizando o Isaac GR00T N1 como base para impulsionar um robô BDX da Disney muito raro. Isso demonstra a sua forte capacidade de generalização. O Newton é um motor de física muito refinado, portanto, é adequado para estabelecer um sistema de recompensas físicas para treinar inteligência corporal em ambientes virtuais.
Huang Renxun interage 'apaixonadamente' com o robô BDX no palco
( 4)Geração de dados, dois pratos na balança
A NVIDIA combinou o NVIDIA Omniverse com o NVIDIA Cosmos Transfer mencionado acima para criar o Blueprint Isaac GR00T. Ele pode gerar uma grande quantidade de dados de movimento sintético a partir de uma pequena demonstração humana para treinamento de operação de robô. A NVIDIA usou os primeiros componentes do Blueprint para gerar 780 mil trajetórias sintéticas em apenas 11 horas, equivalente a 6.500 horas (cerca de 9 meses) de dados de demonstração humana. Grande parte dos dados do Isaac GR00T N1 vem daqui, e esses dados melhoraram o desempenho do GR00T N1 em 40% em comparação com o uso apenas de dados reais.
Para cada modelo, com o sistema puramente virtual Omniverse e o sistema de geração de imagens do mundo real Cosmos Transfer, a NVIDIA pode fornecer uma grande quantidade de dados de alta qualidade. A NVIDIA também cobre o segundo aspecto deste modelo.
( 3)Sistema de computação trinitária, criando um império de cálculo de robôs desde o treinamento até a extremidade
Desde o ano passado, Lao Huang tem enfatizado o conceito de 'três computadores' na GTC: um é o DGX, um servidor com grandes GPUs, usado para treinar IA, incluindo inteligência corporal. O outro é o AGX, uma plataforma de computação embarcada projetada pela NVIDIA para computação de borda e sistemas autônomos, usada para implantar AI especificamente no lado do cliente, como o chip central para condução autônoma ou robôs. O terceiro é o computador de geração de dados Omniverse+Cosmos.
Três sistemas de computação com inteligência incorporada
Este sistema foi novamente mencionado pelo Sr. Huang nesta GTC e especialmente destacou que com este sistema de computação, podem ser criados robôs a nível de bilhões. Desde o treino até à implementação, toda a computação é feita pela NVIDIA. Esta parte também está fechada em ciclo.
Conclusão
Se comparado apenas com a geração anterior de chips Blackwell, o Blackwell Ultra realmente não corresponde em termos de hardware aos adjetivos "bomba atômica" ou "rei do jogo" usados anteriormente, e até mesmo tem um certo sabor de espremer pasta de dente.
Mas se olharmos para isso do ponto de vista do planeamento da estrada, tudo isto está incluído no layout de Huang Renxun, a arquitetura Rubin do próximo ano e do ano seguinte terão melhorias significativas, desde a tecnologia de fabrico de chips, transistores, integração do chassis até às especificações de interligação GPU e interligação de bastidores, como os chineses costumam dizer, o melhor ainda está para vir.
Comparando com a fome de biscoitos no nível de hardware, nos últimos dois anos a NVIDIA avançou loucamente no nível de software.
Ao observar todo o ecossistema de software da NVIDIA, os serviços em três níveis, Meno, Nim e Blueprint, incluem otimização de modelos, encapsulamento de modelos e soluções de pilha completa para construção de aplicativos. O ecossistema da empresa de serviços em nuvem coincide totalmente com a IA da NVIDIA. Com a adição deste novo Agente, a NVIDIA vai abocanhar toda a fatia da infraestrutura de IA, exceto pela parte dos modelos básicos.
Nesta parte do software, o apetite do Lao Huang é tão grande quanto o preço das ações da Nvidia.
No mercado de robôs, a ambição da Nvidia é ainda maior. Eles controlam os três elementos essenciais: modelos, dados e poder computacional. Não conseguiram liderar no modelo de linguagem básica, mas estão compensando com inteligência encarnada. Faintly, um gigante monopolista de inteligência encarnada já está aparecendo no horizonte.
Dentro, cada etapa, cada produto corresponde a um mercado potencial de centenas de bilhões. O antigo rei do jogo de sorte, Huang Renxun, que arriscou tudo nos primeiros anos, começou a jogar um jogo ainda maior com o dinheiro que ganhou com o monopólio da GPU.
Se, neste jogo, o mercado de software ou robôs prevalecer em qualquer aspecto, a NVIDIA será o Google da era da IA, o dominador de topo na cadeia alimentar.
No entanto, ao olharmos para a margem de lucro da GPU da NVIDIA, ainda esperamos um futuro assim.
Felizmente, esta é uma grande aposta na vida do Sr. Huang, e o resultado é imprevisível.
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
Recompensa
curtir
1
Compartilhar
Comentário
0/400
IELTS
· 03-19 01:08
#F1极速冲刺,享$50,000大奖##BTC 行情分析##潜力山寨币# bsv么么么么么么么么么么么么买买买买买买买买买买买买买买ethwbtc ETH ethw etcDoge Pepe #MUBARAK Launchpool 开启##多种山寨币ETF申请中#
Uma leitura para entender a palestra de Jensen Huang na conferência GTC da NVIDIA: Acreditar firmemente que o Poder de computação nunca dorme
Autores: Su Yang, Hao Boyang; Fonte: Tencent Technology
Como 'homens de venda de pás' na era da IA, Huang Renxun e sua NVIDIA acreditam firmemente que o poder de cálculo nunca dorme.
Huang Renxun stated in the GTC speech that reasoning has increased the demand for computing power by 100 times.
Na conferência GTC de hoje, Huang Renxun apresentou a nova GPU Blackwell Ultra, juntamente com a SKU do servidor derivada para inferência e Agent, baseada nela, incluindo a família RTX baseada na arquitetura Blackwell, tudo isso está relacionado com a potência de cálculo, mas o mais importante a seguir é como consumir a potência de cálculo de forma contínua e eficiente.
Aos olhos de Huang Renxun, AGI requer poder de computação, robôs com inteligência corporificada requerem poder de computação, e a construção do Omniverso e do modelo do mundo requerem um fluxo constante de poder de computação. Quanto ao esforço final da humanidade para construir um "universo paralelo" virtual, a resposta da Nvidia é: 100 vezes mais do que no passado.
Para apoiar seu ponto de vista, Huang Renxun mostrou um conjunto de dados no local do GTC - em 2024, as quatro principais nuvems dos Estados Unidos compraram um total de 1,3 milhões de chips de arquitetura Hopper, em 2025, esse número disparou para 3,6 milhões de GPUs Blackwell.
Aqui estão alguns pontos-chave da conferência GTC 2025 da NVIDIA compilados pela Tencent Technology:
Blackwell Family Bucket está online
1)O 'bomba nuclear' anual Blackwell Ultra está espremendo a pasta de dentes
No ano passado, a NVIDIA lançou a arquitetura Blackwell na GTC e lançou o chip GB200. Este ano, o nome oficial foi ajustado, não é chamado de GB300 como rumores anteriores, mas é diretamente chamado de Blakwell Ultra.
Mas em termos de hardware, é simplesmente a substituição da memória HBM por uma nova no ano passado. Em poucas palavras, Blackwell Ultra = versão de grande memória Blackwell.
Blackwell Ultra é composto por dois chips TSMC N4P (5nm), arquitetura de chip Blackwell + CPU Grace, e é combinado com memória interna HBM3e de 12 camadas mais avançada, aumentando a memória de vídeo para 288GB, suportando a quinta geração de NVLink, com largura de banda de interconexão de chips de 1.8TB/s, semelhante à geração anterior.
Parâmetros de desempenho históricos do NVLink
Com base no upgrade de armazenamento, a capacidade de cálculo de precisão FP4 da GPU Blackwell pode atingir 15PetaFLOPS, e a velocidade de inferência baseada no mecanismo de Aceleração de Atenção é 2,5 vezes mais rápida do que o chip de arquitetura Hopper.
2)Blackwell Ultra NVL72:AI推理专用机柜
Blackwell Ultra NVL72 official picture
À semelhança do GB200 NVL72, a NVIDIA também lançou este ano um produto semelhante, o gabinete Blackwell Ultra NVL72, composto por um total de 18 bandejas de computação, cada uma contendo 4 GPUs Blackwell Ultra + 2 CPUs Grace, num total de 72 GPUs Blackwell Ultra + 36 CPUs Grace, com uma memória de vídeo de 20TB, uma largura de banda total de 576TB/s, além de 9 bandejas de comutação NVLink (18 chips de comutação NVLink), com uma largura de banda NVLink entre nós de 130TB/s.
O rack integra 72 placas de rede CX-8, fornecendo largura de banda de 14.4TB/s, enquanto as placas Quantum-X800 InfiniBand e Spectrum-X 800G Ethernet podem reduzir a latência e a oscilação, suportando clusters de IA em grande escala. Além disso, o rack também integra 18 placas BlueField-3 DPU para melhorar redes multi-inquilinos, segurança e aceleração de dados.
A NVIDIA afirmou que este produto é especialmente personalizado para a era da inferência de IA, com aplicações que incluem IA de inferência, Agentes e IA física utilizada em robôs e na síntese de dados para treino de condução autónoma, em comparação com a geração anterior do produto GB200 NVL72, a performance de IA aumentou 1,5 vezes, e em comparação com o DGX na arquitetura Hopper, pode proporcionar um aumento de receita 50 vezes maior para os centros de dados.
Com base nas informações fornecidas oficialmente, a inferência dos 671 bilhões de parâmetros DeepSeek-R1, com base no produto H100, pode atingir 100 tokens por segundo, enquanto a adoção do esquema Blackwell Ultra NVL72 pode alcançar 1000 tokens por segundo.
Convertendo para tempo, a mesma tarefa de raciocínio, o H100 precisa de 1,5 minutos para ser concluído, enquanto o Blackwell Ultra NVL72 pode ser concluído em 15 segundos.
Parâmetros de hardware Blackwell Ultra NVL72 e GB200 NVL72
Com base nas informações fornecidas pela NVIDIA, o produto relacionado Blackwell NVL72 está previsto para ser lançado no segundo semestre de 2025. Os clientes incluem fabricantes de servidores, provedores de nuvem e serviços de aluguel de capacidade de computação.
Cisco/Dell/HPE/Lenovo/超微等15家制造商 Fábrica de nuvens
AWS/Google Cloud/Azure/Oracle e outras plataformas principais de nuvem
CoreWeave/Lambda/Yotta等
( 3) Visualize o chip GPU Rubin real "bomba nuclear" com antecedência
De acordo com o roteiro da NVIDIA, o palco principal do GTC2025 será o Blackwell Ultra.
No entanto, Huang Renxun também aproveitou a oportunidade para anunciar o próximo GPU da próxima geração baseado na arquitetura Rubin, que será lançado em 2026, e o gabinete mais poderoso Vera Rubin NVL144 - 72 CPUs Vera + 144 GPUs Rubin, com 288GB de memória HBM4, largura de banda de memória de 13TB/s, emparelhado com a sexta geração de NVLink e placa de rede CX9.
Quão forte é este produto? A capacidade de inferência de precisão FP4 atinge 3.6ExaFLOPS, e a capacidade de treinamento de precisão FP8 também atinge 1.2ExaFLOPS, o desempenho é 3.3 vezes o do Blackwell Ultra NVL72.
Se achar que não é suficiente, não se preocupe, em 2027 haverá o gabinete Rubin Ultra NVL576 ainda mais poderoso, com capacidade de raciocínio de FP4 e capacidade de treinamento de FP8, 15 ExaFLOPS e 5 ExaFLOPS, respectivamente, 14 vezes mais do que o Blackwell Ultra NVL72.
![图片])https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4###
Os parâmetros Rubin Ultra NVL144 e Rubin Ultra NVL576 fornecidos oficialmente pela Nvidia
( 4)Blackwell Ultra edition DGX Super POD 'fábrica de supercomputação'
Para aqueles clientes que atualmente não são atendidos pelo Blackwell Ultra NVL72 e não precisam construir um grande cluster de IA, a solução da NVIDIA é a fábrica de supercomputadores AI DGX Super POD, baseada no Blackwell Ultra e pronta para uso.
Como uma fábrica de supercomputação AI plug-and-play, o DGX Super POD destina-se principalmente a cenários de IA gerativa, agentes de IA e simulação física, cobrindo a demanda de expansão de potência computacional em todo o processo, desde pré-treinamento até produção, com a Equinix sendo o primeiro provedor de serviços a fornecer suporte de infraestrutura de resfriamento líquido/ar.
![图片])https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f###
DGX SuperPod construído pela Blackwell Ultra
Existem duas versões do DGX Super POD, baseadas na personalização do Blackwell Ultra:
( 5)DGX Spark与DGX Station
Em janeiro deste ano, a NVIDIA revelou um produto conceitual de PC de IA com um preço de 3000 dólares na CES - o Project DIGITS, que agora tem o nome oficial de DGX Spark.
Em termos de especificações do produto, equipado com o chip GB10, a potência de cálculo sob precisão FP4 pode atingir 1PetaFlops, com 128GB de memória LPDDR5X integrada, placa de rede CX-7, armazenamento NVMe de 4TB, executando o sistema operacional DGX OS baseado em Linux personalizado, suportando estruturas como Pytorch, e pré-instalando algumas ferramentas de desenvolvimento de software básicas de IA fornecidas pela NVIDIA, capaz de executar modelos com 200 bilhões de parâmetros. As dimensões da máquina são semelhantes às do Mac mini, dois DGX Spark podem ser interconectados e podem executar modelos com mais de 400 bilhões de parâmetros.
Embora nós o chamemos de PC AI, na verdade, ainda pertence à categoria de supercomputação, por isso foi colocado na série de produtos DGX, em vez de produtos de consumo como RTX.
No entanto, algumas pessoas criticaram este produto, alegando que o desempenho de propaganda e usabilidade do FP4 é baixo. Quando convertido para uma precisão FP16, ele só pode competir com o RTX 5070 ou mesmo o Arc B580 de 250 dólares, tornando-o muito baixo em termos de custo-benefício.
![图片])https://img.gateio.im/social/moments-0ad2286c98bbdacda9a450abd3606e80###
computador DGX Spark e estação de trabalho DGX Station
Para além do lançamento oficial do DGX Spark, a NVIDIA também lançou uma estação de trabalho de IA baseada no Blackwell Ultra, equipada com uma CPU Grace e uma GPU Blackwell Ultra, juntamente com 784GB de memória unificada, placa de rede CX-8, fornecendo uma potência de IA de 20 PetaFlops (não oficialmente marcada, teoricamente também com precisão FP4).
( 6)RTX varre AI PC, e ainda se infiltra nos centros de dados
Os produtos SKU apresentados anteriormente são baseados no CPU Grace e GPU Blackwell Ultra, todos eles produtos de nível empresarial. Levando em consideração o incrível desempenho de produtos como o RTX 4090 em inferência de IA, a NVIDIA reforçou ainda mais a integração da série Blackwell e RTX nesta GTC, lançando uma série de GPUs relacionadas a PC de IA com memória GDDR7 integrada, abrangendo cenários como laptops, desktops e até mesmo data centers.
![图片])https://img.gateio.im/social/moments-b6c591bdc6c60a8e477fc88631a3b9a0###
A NVIDIA criou um 'conjunto completo' de IA para computação empresarial
Apenas algumas das SKUs personalizadas para diferentes cenários baseadas no chip Blackwell Ultra foram mencionadas acima, desde estações de trabalho até clusters de data center. A NVIDIA chama isso de "Família Blackwell", que pode ser traduzido como "Família Blackwell" em chinês, ou seja, "Blackwell Family".
英伟达Photonics:站在队友肩膀上的CPO系统
O conceito de módulos óptico-elétricos (CPO) é simplesmente encapsular em conjunto chips de comutação e módulos ópticos, que podem converter sinais de luz em sinais elétricos, aproveitando ao máximo o desempenho de transmissão de sinais de luz.
Antes disso, a indústria tem vindo a discutir há muito tempo os produtos de comutação de rede CPO da NVIDIA, mas ainda não foram lançados. Huang Renxun também deu uma explicação no local - devido ao uso generalizado de fibras ópticas nos data centers, o consumo de energia da rede óptica corresponde a 10% dos recursos de computação, e o custo da conexão óptica afeta diretamente a escalabilidade da rede Scale-Out e o aumento da densidade de desempenho da IA nos nós de cálculo.
Os parâmetros dos dois chips de encapsulamento de silício óptico Quantum-X e Spectrum-X exibidos na GTC
Este ano, a NVIDIA GTC lançou o chip encapsulado Quantum-X e Spectrum-X, bem como três produtos de switch derivados: Quantum 3450-LD, Spectrum SN6810 e Spectrum SN6800.
Os produtos acima são todos classificados sob "NVIDIA Photonics", que a NVIDIA afirma ser uma plataforma de co-desenvolvimento baseada na parceria CPO, por exemplo, seu modulador de anel micro (MRM) é otimizado com base no mecanismo óptico da TSMC, suportando modulação a laser de alta potência e alta eficiência energética, e usando conectores de fibra óptica removíveis.
Curiosamente, de acordo com informações anteriores da indústria, o modulador de anel microscópico (MRM) da TSMC foi desenvolvido com base na tecnologia de processo de 3nm e no CoWoS da Broadcom.
De acordo com os dados fornecidos pela NVIDIA, o switch de fotônica integrado do módulo óptico tem um desempenho 3,5 vezes maior do que o switch tradicional, a eficiência de implantação pode ser aumentada em 1,3 vezes, e a elasticidade de expansão é mais de 10 vezes.
Eficiência do Modelo PK DeepSeek: Ecossistema de Software Impulsiona o Agente de IA
Huang Renxun desenha o 'bolo' da infraestrutura de IA no local
Devido a esta GTC de 2 horas, Huang Renxun só falou cerca de meia hora sobre software e inteligência corporal. Portanto, muitos detalhes foram complementados através da documentação oficial, e não totalmente do local.
( 1)Nvidia Dynamo, a new CUDA built by Nvidia in the inference field
Nvidia Dynamo é definitivamente o destaque do lançamento do software.
É um software de código aberto projetado especificamente para acelerar inferências, treinamentos e operações em todo o datacenter. Os dados de desempenho do Dynamo são impressionantes: com a arquitetura Hopper existente, o Dynamo pode dobrar o desempenho do modelo Llama padrão. Para modelos de inferência especializados como o DeepSeek, a otimização inteligente de inferência do NVIDIA Dynamo pode aumentar a quantidade de tokens gerados por GPU em mais de 30 vezes.
![图片])https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244###
黄仁勋演示加了Dynamo的Blackwell能超过25倍的Hopper
As melhorias no Dynamo são principalmente devido à descentralização. Ele distribui as diferentes fases de cálculo do LLM (compreensão da consulta do usuário e geração da melhor resposta) para diferentes GPUs, permitindo que cada fase seja otimizada independentemente, aumentando o throughput e acelerando a velocidade de resposta.
A arquitetura do sistema Dynamo
Por exemplo, durante a fase de processamento de entrada, que é a fase de pré-preenchimento, o Dynamo é capaz de alocar recursos de GPU de forma eficiente para processar a entrada do usuário. O sistema usará vários conjuntos de GPUs para processar consultas do usuário em paralelo, esperando que o processamento da GPU seja mais distribuído e mais rápido. O Dynamo usa o modo FP4 para invocar várias GPUs para "ler" e "entender" o problema do usuário em paralelo ao mesmo tempo, com um grupo lidando com o conhecimento de fundo da Segunda Guerra Mundial, outro grupo lidando com o material histórico relacionado às "causas", e um terceiro grupo lidando com a linha do tempo e eventos "decorridos".
Na geração de tokens de saída, ou seja, na fase de decodificação, a GPU precisa ser mais focada e coerente. Em comparação com o número de GPUs, este estágio requer mais largura de banda para absorver as informações de pensamento do estágio anterior, por isso também requer mais leituras de cache. O Dynamo otimiza a comunicação entre GPUs e a alocação de recursos para garantir uma geração de resposta consistente e eficiente. Por um lado, ele faz pleno uso da capacidade de comunicação NVLink de alta largura de banda da arquitetura NVL72 para maximizar a eficiência da geração de tokens. Por outro lado, o "Smart Router" direciona as solicitações para a GPU que armazenou em cache o ( de chave-valor de KV) relevante, o que evita computação dupla e melhora muito a velocidade de processamento. Ao evitar a computação dupla, alguns recursos da GPU são liberados e o Dynamo pode alocar dinamicamente esses recursos ociosos para novas solicitações de entrada.
Esta arquitetura é muito semelhante à arquitetura Mooncake de Kimi, mas a NVIDIA forneceu mais suporte na infraestrutura subjacente. O Mooncake pode aumentar cerca de 5 vezes, mas o Dynamo mostra melhorias mais significativas em termos de inferência.
Por exemplo, entre as várias inovações importantes do Dynamo, o "GPU Planner" pode ajustar dinamicamente a alocação de GPU com base na carga, a "biblioteca de comunicação de baixa latência" otimiza a transferência de dados entre GPUs e o "gerenciador de memória" move inteligentemente os dados de inferência entre dispositivos de armazenamento em diferentes níveis de custo, reduzindo ainda mais os custos operacionais. O roteador inteligente, sistema de roteamento LLM com capacidade de percepção, direciona as solicitações para a GPU mais adequada, reduzindo cálculos repetitivos. Todas essas capacidades otimizam a carga da GPU.
Usar este conjunto de software de sistemas de inferência pode ser escalado de forma eficiente para grandes clusters de GPU, permitindo que uma única consulta de IA seja escalada perfeitamente para até 1000 GPUs, para aproveitar ao máximo os recursos do centro de dados.
Para os operadores de GPU, esta melhoria resulta numa diminuição significativa do custo por milhão de tokens, enquanto aumenta consideravelmente a capacidade de produção. Ao mesmo tempo, os utilizadores individuais recebem mais tokens por segundo, com uma resposta mais rápida e uma melhoria na experiência do utilizador.
Com o Dynamo, atinge-se o ponto ideal entre o débito e a velocidade de resposta do servidor.
Ao contrário do CUDA como base subjacente para a programação da GPU, o Dynamo é um sistema de nível mais alto, focado na alocação e gestão inteligente de cargas de raciocínio em grande escala. Ele é responsável pela camada de agendamento distribuído de otimização de raciocínio, situada entre a aplicação e a infraestrutura de cálculo subjacente. No entanto, tal como o CUDA revolucionou completamente o cenário do cálculo da GPU há mais de uma década, o Dynamo também pode ser bem-sucedido em estabelecer um novo paradigma de eficiência em software e hardware de raciocínio.
O Dynamo é totalmente de código aberto e suporta todos os principais frameworks, desde PyTorch até Tensor RT. Ser de código aberto não diminui sua posição defensiva. Assim como o CUDA, ele só é eficaz nas GPUs da NVIDIA e faz parte do conjunto de software de inferência de IA da NVIDIA.
Com esta atualização de software, a NVIDIA está fortalecendo suas defesas contra chips de inferência especializados, como o Groq. É necessário um equilíbrio entre hardware e software para liderar a infraestrutura de inferência.
( 2)O novo modelo Llama Nemotron é eficiente, mas ainda não consegue superar o DeepSeek.
Embora seja impressionante em termos de utilização do servidor, a Dynamo ainda tem alguma diferença em relação à NVIDIA no treinamento de modelos.
A NVIDIA apresentou o novo modelo Llama Nemotron na GTC desta vez, com foco em eficiência e precisão. Derivado da série de modelos Llama, este modelo foi especialmente ajustado pela NVIDIA e, em comparação com o Llama original, foi otimizado com algoritmos de poda, tornando-o mais leve, com apenas 48B. Ele também possui capacidade de raciocínio semelhante à o1. Assim como o Claude 3.7 e o Grok 3, o modelo Llama Nemotron possui um interruptor de capacidade de raciocínio embutido, que os usuários podem optar por ativar ou desativar. Esta série é dividida em três níveis: Nano de entrada, Super de gama média e Ultra de topo de gama, cada um deles destinado a diferentes necessidades empresariais em termos de escala.
![图片])https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846###
Os dados específicos do Llama Nemotron
Quando se trata de eficiência, o conjunto de dados de ajuste fino deste modelo é composto inteiramente por dados sintéticos gerados pela própria NVIDIA, com um total de cerca de 60B tokens. Em comparação com o treinamento completo de 1,3 milhões de horas da DeepSeek V3, este modelo com apenas 1/15 da quantidade de parâmetros da DeepSeek V3 levou apenas 360 mil horas de treinamento de ajuste fino. A eficiência de treinamento é de um nível inferior à DeepSeek.
Em termos de eficiência de raciocínio, o modelo Llama Nemotron Super 49B é de fato muito melhor do que a geração anterior, com uma capacidade de throughput de token cinco vezes maior do que a do Llama 3 70B. Sob uma única GPU em um data center, ele pode processar mais de 3000 tokens por segundo. No entanto, de acordo com os dados divulgados no último dia do Open Source Day da DeepSeek, cada nó H800 tem uma média de throughput de cerca de 73,7k tokens/s durante o período de pré-povoamento (incluindo hits de cache) ou cerca de 14,8k tokens/s durante a decodificação. A diferença entre os dois ainda é bastante evidente.
Em termos de desempenho, o Llama Nemotron Super de 49B supera o modelo Llama 70B destilado pelo DeepSeek R1 em todos os aspectos. No entanto, considerando o frequente lançamento de modelos de pequenos parâmetros de alta potência, como o Qwen QwQ 32B, é provável que o Llama Nemotron Super tenha dificuldade em se destacar entre esses modelos que podem competir com o R1.
O pior de tudo é que este modelo é uma confirmação definitiva de que o DeepSeek pode ser melhor do que a NVIDIA em treinar e ajustar as GPUs durante o processo de treino.
( 3)O novo modelo é apenas uma entrada no ecossistema de AI Agent da NVIDIA, o AIQ da NVIDA é o prato principal
Por que a NVIDIA está desenvolvendo um modelo de inferência? Isso é principalmente para se preparar para o próximo ponto de explosão de AI que Huang valoriza - AI Agent. Desde que grandes empresas como OpenAI, Claude, etc., gradualmente estabeleceram as bases do Agente através de DeepReasearch, MCP, a NVIDIA claramente também acredita que a era do Agente chegou.
O projeto NVIDA AIQ é a tentativa da NVIDIA. Ele fornece diretamente um fluxo de trabalho pronto para uso para um agente de IA planejador com o modelo de raciocínio Llama Nemotron como núcleo. Este projeto pertence ao nível Blueprint da NVIDIA, o que se refere a um conjunto de fluxos de trabalho de referência pré-configurados, é um modelo de modelo que ajuda os desenvolvedores a integrar mais facilmente a tecnologia e bibliotecas da NVIDIA. E o AIQ é o modelo de agente fornecido pela NVIDIA.
![图片])https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4###
A arquitetura NVIDA AIQ
Assim como o Manus, ele integra motores de busca na web e outras ferramentas externas, como agentes de IA profissionais, o que permite que o próprio Agente possa pesquisar e usar várias ferramentas. Por meio do planeamento do modelo de raciocínio Llama Nemotron, reflete e otimiza soluções para concluir as tarefas dos utilizadores. Além disso, suporta a construção de fluxos de trabalho com vários Agentes.
Sistema ServiceNow construído com base neste modelo
Além disso, é mais avançado do que o Manus, pois possui um sistema RAG complexo para documentos corporativos. Este sistema inclui uma série de etapas, como extração, incorporação, armazenamento vetorial, reordenação e processamento final por LLM, garantindo que os dados corporativos sejam utilizados pelo Agente.
Além disso, a NVIDIA lançou a plataforma de dados de IA, conectando modelos de inferência de IA aos sistemas de dados corporativos, formando um DeepReasearch para os dados corporativos. Isso impulsiona uma grande evolução na tecnologia de armazenamento, transformando os sistemas de armazenamento de meros depósitos de dados em plataformas inteligentes com capacidade de inferência e análise ativa.
A composição da Plataforma de Dados de IA
Além disso, a AIQ enfatiza muito o mecanismo de observabilidade e transparência. Isso é muito importante para a segurança e melhorias futuras. A equipe de desenvolvimento pode monitorar as atividades do Agente em tempo real e otimizar continuamente o sistema com base nos dados de desempenho.
Em geral, a NVIDA AIQ é um modelo de fluxo de trabalho de agente padrão que fornece várias capacidades de agente. Pode ser considerado um software de construção de agentes do tipo Dify mais simplificado, evoluindo para a era da inferência.
Lançamento do modelo base do robô humanoides, a NVIDIA quer criar um ecossistema totalmente integrado.
( 1)Cosmos, permitindo que a inteligência encarnada compreenda o mundo
Se a Nvidia se concentrar em Agent ou apostar agora, sua disposição no campo da inteligência corporal pode ser considerada uma integração total no futuro.
A NVIDIA organizou os três elementos essenciais para modelos, dados e potência computacional.
Comecemos com o modelo. Esta edição do GTC lançou a versão atualizada do modelo de base de inteligência encarnada Cosmos, que foi anunciado em janeiro deste ano.
Cosmos é um modelo que pode prever o futuro a partir do presente, através de imagens. Pode gerar vídeos detalhados a partir de dados de entrada de texto/imagem e prever a evolução da cena combinando seu estado atual (imagem/vídeo) com a ação (dica/sinal de controle). Como isso requer compreensão das leis físicas causais do mundo, a NVIDIA chama o Cosmos de modelo fundamental do mundo (WFM).
![图片])https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d###
A estrutura básica do Cosmos
Para a inteligência encarnada, a capacidade mais fundamental é prever o impacto do comportamento da máquina no mundo exterior. Somente assim o modelo pode planejar o comportamento com base nas previsões, tornando o modelo do mundo a base da inteligência encarnada. Com este modelo de previsão do mundo que muda o comportamento/tempo-físico do mundo como base, o modelo pode atender a diversas necessidades práticas de inteligência encarnada com formas físicas, através do ajuste fino de conjuntos de dados específicos, como direção autônoma e tarefas de robôs.
O modelo completo consiste em três partes, sendo a primeira parte o Cosmos Transfer, que converte entrada de texto estruturado de vídeo em saída de vídeo realista controlável, gerando dados de síntese em grande escala a partir do nada com texto. Isso resolve o maior obstáculo atual da inteligência encarnada - a escassez de dados. Além disso, essa geração é uma geração "controlável", o que significa que os usuários podem especificar parâmetros específicos (como condições climáticas, propriedades de objetos, etc.), e o modelo ajustará os resultados gerados correspondentes, tornando o processo de geração de dados mais controlável e direcionado. Todo o processo também pode ser combinado por Ominiverse e Cosmos.
Cosmos construído em cima do Ominiverso para simulação da realidade
A segunda parte do Cosmos Predict pode gerar estados virtuais do mundo a partir de entradas multimodais, suportando geração de múltiplos quadros e previsão de trajetória de movimento. Isso significa que, dadas as condições iniciais e finais, o modelo pode gerar um processo intermediário razoável. Esta é a capacidade central de cognição e construção do mundo físico.
A terceira parte é o Cosmos Reason, que é um modelo aberto e totalmente personalizável, com capacidade de perceção espaço-temporal, compreendendo dados de vídeo através de raciocínio de cadeia mental e prevendo resultados interativos. Isso é uma capacidade aprimorada de planeamento e previsão de resultados comportamentais.
Com a sobreposição progressiva dessas três habilidades, o Cosmos pode realizar a cadeia completa de comportamentos, desde a entrada de token de imagem real + token de comando de texto até a saída de token de ação da máquina.
Este modelo básico deve ter um desempenho bastante bom. Apenas dois meses após o lançamento, as três principais empresas, 1X, Agility Robotics e Figure AI, já começaram a usá-lo. Embora os grandes modelos de linguagem não estejam na vanguarda, a inteligência artificial encarnada da NVIDIA está realmente entre os primeiros.
( 2)Isaac GR00T N1, o primeiro modelo base do robô humanoide do mundo
Com o Cosmos, a NVIDIA naturalmente ajustou o modelo base Isaac GR00T N1 para treinar especificamente robôs humanoides.
![图片])https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf###
Arquitetura de sistema duplo Isaac GR00T N1
Ele adota uma arquitetura de sistema duplo, com um 'sistema 1' de resposta rápida e um 'sistema 2' de raciocínio profundo. Seu ajuste fino abrangente permite lidar com tarefas gerais como agarrar, movimentar, operar com dois braços, etc. Além disso, pode ser totalmente personalizado para robôs específicos, permitindo que os desenvolvedores de robôs realizem o treinamento posterior com dados reais ou sintéticos. Isso significa que esse modelo pode ser implementado em uma variedade de robôs com formas muito diferentes.
Por exemplo, a NVIDIA colaborou com o Google DeepMind e a Disney no desenvolvimento do motor de física Newton, utilizando o Isaac GR00T N1 como base para impulsionar um robô BDX da Disney muito raro. Isso demonstra a sua forte capacidade de generalização. O Newton é um motor de física muito refinado, portanto, é adequado para estabelecer um sistema de recompensas físicas para treinar inteligência corporal em ambientes virtuais.
Huang Renxun interage 'apaixonadamente' com o robô BDX no palco
( 4)Geração de dados, dois pratos na balança
A NVIDIA combinou o NVIDIA Omniverse com o NVIDIA Cosmos Transfer mencionado acima para criar o Blueprint Isaac GR00T. Ele pode gerar uma grande quantidade de dados de movimento sintético a partir de uma pequena demonstração humana para treinamento de operação de robô. A NVIDIA usou os primeiros componentes do Blueprint para gerar 780 mil trajetórias sintéticas em apenas 11 horas, equivalente a 6.500 horas (cerca de 9 meses) de dados de demonstração humana. Grande parte dos dados do Isaac GR00T N1 vem daqui, e esses dados melhoraram o desempenho do GR00T N1 em 40% em comparação com o uso apenas de dados reais.
![图片])https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a###
Sistema de Simulação de Gêmeos
Para cada modelo, com o sistema puramente virtual Omniverse e o sistema de geração de imagens do mundo real Cosmos Transfer, a NVIDIA pode fornecer uma grande quantidade de dados de alta qualidade. A NVIDIA também cobre o segundo aspecto deste modelo.
( 3)Sistema de computação trinitária, criando um império de cálculo de robôs desde o treinamento até a extremidade
Desde o ano passado, Lao Huang tem enfatizado o conceito de 'três computadores' na GTC: um é o DGX, um servidor com grandes GPUs, usado para treinar IA, incluindo inteligência corporal. O outro é o AGX, uma plataforma de computação embarcada projetada pela NVIDIA para computação de borda e sistemas autônomos, usada para implantar AI especificamente no lado do cliente, como o chip central para condução autônoma ou robôs. O terceiro é o computador de geração de dados Omniverse+Cosmos.
![图片])https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5###
Três sistemas de computação com inteligência incorporada
Este sistema foi novamente mencionado pelo Sr. Huang nesta GTC e especialmente destacou que com este sistema de computação, podem ser criados robôs a nível de bilhões. Desde o treino até à implementação, toda a computação é feita pela NVIDIA. Esta parte também está fechada em ciclo.
Conclusão
Se comparado apenas com a geração anterior de chips Blackwell, o Blackwell Ultra realmente não corresponde em termos de hardware aos adjetivos "bomba atômica" ou "rei do jogo" usados anteriormente, e até mesmo tem um certo sabor de espremer pasta de dente.
Mas se olharmos para isso do ponto de vista do planeamento da estrada, tudo isto está incluído no layout de Huang Renxun, a arquitetura Rubin do próximo ano e do ano seguinte terão melhorias significativas, desde a tecnologia de fabrico de chips, transistores, integração do chassis até às especificações de interligação GPU e interligação de bastidores, como os chineses costumam dizer, o melhor ainda está para vir.
Comparando com a fome de biscoitos no nível de hardware, nos últimos dois anos a NVIDIA avançou loucamente no nível de software.
Ao observar todo o ecossistema de software da NVIDIA, os serviços em três níveis, Meno, Nim e Blueprint, incluem otimização de modelos, encapsulamento de modelos e soluções de pilha completa para construção de aplicativos. O ecossistema da empresa de serviços em nuvem coincide totalmente com a IA da NVIDIA. Com a adição deste novo Agente, a NVIDIA vai abocanhar toda a fatia da infraestrutura de IA, exceto pela parte dos modelos básicos.
Nesta parte do software, o apetite do Lao Huang é tão grande quanto o preço das ações da Nvidia.
No mercado de robôs, a ambição da Nvidia é ainda maior. Eles controlam os três elementos essenciais: modelos, dados e poder computacional. Não conseguiram liderar no modelo de linguagem básica, mas estão compensando com inteligência encarnada. Faintly, um gigante monopolista de inteligência encarnada já está aparecendo no horizonte.
Dentro, cada etapa, cada produto corresponde a um mercado potencial de centenas de bilhões. O antigo rei do jogo de sorte, Huang Renxun, que arriscou tudo nos primeiros anos, começou a jogar um jogo ainda maior com o dinheiro que ganhou com o monopólio da GPU.
Se, neste jogo, o mercado de software ou robôs prevalecer em qualquer aspecto, a NVIDIA será o Google da era da IA, o dominador de topo na cadeia alimentar.
No entanto, ao olharmos para a margem de lucro da GPU da NVIDIA, ainda esperamos um futuro assim.
Felizmente, esta é uma grande aposta na vida do Sr. Huang, e o resultado é imprevisível.