Autores: Su Yang, Hao Boyang; Fuente: Tencent Technology
Como “vendedor de palas” en la era de la IA, Huang Renxun y su NVIDIA siempre creen que la potencia de cálculo nunca duerme.
Huang Renxun dijo en su discurso en GTC que la inferencia aumenta la demanda de potencia de cálculo en 100 veces.
En la conferencia de GTC de hoy, Huang Renxun presentó la nueva GPU Blackwell Ultra, así como la SKU del servidor derivada de ella para inferencia y Agent, que incluye la serie completa de RTX basada en la arquitectura Blackwell. Todo esto está relacionado con la potencia de cálculo, pero lo más importante a continuación es cómo consumir de manera razonable y eficaz la potencia de cálculo constante.
En los ojos de Huang Renxun, AGI requiere potencia de cálculo, los robots inteligentes con cuerpo requieren potencia de cálculo, y la construcción de Omniverse y modelos del mundo requieren una fuente constante de potencia de cálculo. En cuanto a cuánta potencia de cálculo se necesita para que los humanos finalmente construyan un “universo paralelo” virtual, NVIDIA ha dado una respuesta: 100 veces más que en el pasado.
Para respaldar su punto de vista, Huang Renxun mostró un conjunto de datos en el lugar de GTC: en 2024, los cuatro principales proveedores de la nube en Estados Unidos compraron un total de 1.3 millones de chips de la arquitectura Hopper, y para 2025, esta cifra se disparó a 3.6 millones de GPU Blackwell.
A continuación se presentan algunos puntos clave de la conferencia GTC 2025 de NVIDIA recopilados por Tencent Technology:
Blackwell全家桶上线
1)El “bomba nuclear” anual Blackwell Ultra está exprimiendo la pasta de dientes
NVIDIA lanzó la arquitectura Blackwell y presentó el chip GB200 en el GTC del año pasado, este año ajustó ligeramente el nombre oficial, ya no se llama GB300 como se rumoreaba anteriormente, sino que directamente se llama Blakwell Ultra.
Pero en términos de hardware, es simplemente el cambio a una nueva memoria HBM el año pasado. En pocas palabras, Blackwell Ultra= versión de gran memoria de Blackwell.
Blackwell Ultra está compuesto por dos chips de arquitectura Blackwell con tecnología TSMC N4P (5nm) y CPU Grace, junto con una memoria HBM3e de 12 capas más avanzada, aumentando la memoria de video a 288GB, y al igual que la generación anterior, es compatible con la quinta generación de NVLink, con un ancho de banda de interconexión de chips de 1.8TB/s.
Parámetros de rendimiento de NVLink a lo largo de los años
Basado en el almacenamiento mejorado, la potencia de cálculo de precisión FP4 de Blackwell GPU puede alcanzar los 15PetaFLOPS, y la velocidad de inferencia basada en el mecanismo de Aceleración de Atención es 2.5 veces más rápida que la del chip de la arquitectura Hopper.
2)Blackwell Ultra NVL72:AI推理专用机柜
Blackwell Ultra NVL72官方图
Al igual que el GB200 NVL72, NVIDIA también ha lanzado este año un producto similar, el gabinete Blackwell Ultra NVL72, compuesto por un total de 18 bandejas de cálculo. Cada bandeja de cálculo contiene 4 GPU Blackwell Ultra y 2 CPU Grace, lo que suma un total de 72 GPU Blackwell Ultra y 36 CPU Grace, con una memoria de 20TB, un ancho de banda total de 576TB/s, además de 9 bandejas de conmutadores NVLink (18 chips de conmutadores NVLink), con un ancho de banda NVLink entre nodos de 130TB/s.
El armario tiene 72 tarjetas de red CX-8 integradas, que proporcionan un ancho de banda de 14.4TB/s. Las tarjetas Quantum-X800 InfiniBand y Spectrum-X 800G Ethernet pueden reducir la latencia y la fluctuación, y son compatibles con clústeres de IA a gran escala. Además, el bastidor integra 18 tarjetas BlueField-3 DPU para mejorar redes multiinquilino, seguridad y aceleración de datos.
NVIDIA dice que este producto está especialmente diseñado para la era de la inferencia de IA, con aplicaciones que incluyen IA de inferencia, agentes y física AI(, utilizado para la síntesis de datos de entrenamiento de robots y conducción inteligente). En comparación con el producto de la generación anterior, GB200 NVL72, el rendimiento de IA se ha incrementado en un 1.5 veces, y en comparación con los productos de bastidor DGX con la misma arquitectura de Hopper, puede ofrecer 50 veces más oportunidades de ingresos para los centros de datos.
Según la información proporcionada por el oficial, la inferencia de 671 billion parameters DeepSeek-R1, basado en el producto H100, puede lograr 100 tokens por segundo, mientras que utilizando el esquema Blackwell Ultra NVL72, se puede alcanzar 1000 tokens por segundo.
En términos de tiempo, para la misma tarea de razonamiento, H100 necesita 1.5 minutos para completarla, mientras que Blackwell Ultra NVL72 solo necesita 15 segundos.
Parámetros de hardware Blackwell Ultra NVL72 y GB200 NVL72
Según la información proporcionada por NVIDIA, se espera que el producto relacionado con Blackwell NVL72 se lance en la segunda mitad de 2025, con clientes que incluyen fabricantes de servidores, proveedores de servicios en la nube y servicios de alquiler de potencia de cálculo.
Fabricante del servidor
15 fabricantes como Cisco/Dell/HPE/Lenovo/Supermicro
Nube Factory
Plataformas principales como AWS/Google Cloud/Azure/Oracle Cloud
Proveedor de servicios de alquiler de potencia de cálculo
CoreWeave/Lambda/Yotta等
3)Adelanto del auténtico ‘bomba nuclear’ GPU Rubin chip
Según el roadmap de NVIDIA, el hogar de GTC2025 es Blackwell Ultra.
Sin embargo, Huang Renxun también aprovechó la oportunidad para anunciar la próxima generación de GPU basada en la arquitectura Rubin y el potente gabinete Vera Rubin NVL144, que se lanzará en 2026. Este sistema contará con 72 CPU Vera y 144 GPU Rubin, con chips HBM4 de 288 GB de memoria gráfica y un ancho de banda de 13 TB/s, junto con la sexta generación de NVLink y la tarjeta de red CX9.
¿Qué tan poderoso es este producto? La potencia de cálculo de inferencia de precisión FP4 alcanza los 3.6ExaFLOPS, y la potencia de entrenamiento de precisión FP8 también alcanza los 1.2ExaFLOPS, lo que es 3.3 veces la potencia del Blackwell Ultra NVL72.
Si sientes que no es suficiente, no te preocupes, en 2027 habrá una versión más potente del gabinete Rubin Ultra NVL576 con FP4 para razonamiento de alta precisión y FP8 para capacidad de entrenamiento con 15ExaFLOPS y 5ExaFLOPS respectivamente, 14 veces más que Blackwell Ultra NVL72.
Parámetros Rubin Ultra NVL144 y Rubin Ultra NVL576 proporcionados por Nvidia oficialmente.
4)Blackwell Ultra版DGX Super POD“超算工厂“
Para aquellos clientes que actualmente no pueden satisfacer sus necesidades con Blackwell Ultra NVL72 y que no necesitan construir un clúster de IA a gran escala, la solución de NVIDIA es la fábrica de supercomputación de IA DGX Super POD, basada en Blackwell Ultra y lista para usar.
Como una fábrica de supercomputación de IA plug-and-play, DGX Super POD está dirigido principalmente a escenarios de IA generativa, agentes de IA, simulación física, etc., cubriendo las necesidades de expansión de potencia de cálculo de extremo a extremo, desde pre-entrenamiento, post-entrenamiento hasta entornos de producción. Equinix, como el primer proveedor de servicios, proporciona soporte de infraestructura de enfriamiento líquido/aéreo.
DGX SuperPod construido por Blackwell Ultra
Existen dos versiones del DGX Super POD personalizado basado en Blackwell Ultra:
DGX SuperPOD con DGX GB300 (Grace CPU ×1+Blackwell Ultra GPU ×2) integrado, con un total de 288 CPU Grace + 576 GPU Blackwell Ultra, proporciona 300TB de memoria rápida, con una potencia de cálculo de 11.5ExaFLOPS en precisión FP4
DGX SuperPOD con DGX B300 integrado, esta versión no incluye el chip Grace CPU, tiene más espacio para expandirse y utiliza un sistema de refrigeración por aire, con aplicaciones principales en centros de datos empresariales normales
5)DGX Spark与DGX Station
En enero de este año, NVIDIA mostró un producto conceptual de IA, Project DIGITS, con un precio de 3000 dólares en el CES. Ahora se llama oficialmente DGX Spark.
En cuanto a las especificaciones del producto, está equipado con el chip GB10, con una potencia de cálculo de hasta 1PetaFlops con precisión FP4, 128GB de memoria LPDDR5X integrada, tarjeta de red CX-7, almacenamiento NVMe de 4TB, ejecutando el sistema operativo DGX OS basado en Linux personalizado, compatible con Pytorch y otros marcos, y preinstalado con algunas herramientas básicas de desarrollo de software de IA proporcionadas por NVIDIA, capaz de ejecutar modelos de 200 mil millones de parámetros. Las dimensiones de la máquina son similares a las del Mac mini, dos DGX Spark se pueden interconectar, y también es posible ejecutar modelos con más de 400 mil millones de parámetros.
Aunque lo llamemos AI PC, en realidad sigue siendo parte de la categoría de supercomputación, por lo que se incluye en la serie de productos DGX en lugar de en productos de consumo como RTX.
Sin embargo, también hay personas que critican este producto, ya que el rendimiento promocionado de FP4 es bajo en usabilidad, equivalente solo al RTX 5070 en precisión FP16, e incluso comparable con el Arc B580 de 250 dólares, por lo tanto, tiene una relación calidad-precio muy baja.
El ordenador DGX Spark y la estación de trabajo DGX Station
Además del DGX Spark de nombre oficial, NVIDIA también ha lanzado una estación de trabajo de IA basada en Blackwell Ultra, que cuenta con una CPU Grace y una GPU Blackwell Ultra, junto con 784 GB de memoria unificada, una tarjeta de red CX-8, y ofrece una potencia de cálculo de IA de 20 PetaFlops (no marcada oficialmente, teóricamente también es precisión FP4).
6)RTX barrer AI PC, y también apretarse en el centro de datos
Todos los productos SKU presentados anteriormente se basan en la CPU Grace y la GPU Blackwell Ultra, y todos son productos de nivel empresarial. Dado que muchas personas consideran las maravillas de productos como RTX 4090 en el razonamiento de IA, NVIDIA también ha fortalecido aún más la integración de la serie Blackwell y RTX en GTC de esta vez, lanzando una gran cantidad de GPU relacionadas con PC de IA con memoria GDDR7 incorporada, que abarcan escenarios como portátiles, escritorios e incluso centros de datos.
GPU de escritorio: incluyendo la versión de estación de trabajo RTX PRO 6000 Blackwell, la versión de estación de trabajo RTX PRO 6000 Blackwell Max-Q, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell y RTX PRO 4000 Blackwell
GPU de portátiles: RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell y RTX PRO 500 Blackwell
Data Center GPU: NVIDIA RTX PRO 6000 Blackwell Server Edition
NVIDIA ha creado un ‘kit’ completo de inteligencia artificial para computación empresarial
Esto es solo una parte de los SKU personalizados para diferentes escenarios basados en el chip Blackwell Ultra, desde estaciones de trabajo hasta clústeres de centros de datos, NVIDIA lo llama “Familia Blackwell”, que se traduce al chino como “Blackwell全家桶”, que es muy apropiado.
NVIDIA Photonics: sistema CPO que se apoya en los hombros de los compañeros de equipo
El concepto de módulo encapsulado de fotónica compartida (CPO), en pocas palabras, es encapsular conjuntamente el chip del conmutador y el módulo óptico, lo que puede convertir la señal óptica en señal eléctrica y aprovechar al máximo el rendimiento de transmisión de la señal óptica.
Antes de esto, la industria ha estado debatiendo sobre los productos de conmutación de red CPO de NVIDIA, pero aún no se han lanzado. Huang Renxun también dio una explicación en el lugar: debido al uso generalizado de la fibra óptica en los centros de datos, el consumo de energía de la red óptica es equivalente al 10% de los recursos de computación, y el costo de la conexión óptica afecta directamente a la mejora de la red Scale-Out y la densidad de rendimiento de la AI de los nodos de cálculo.
Los parámetros de los dos chips encapsulados de silicio óptico Quantum-X y Spectrum-X mostrados en GTC.
Este año, GTC de NVIDIA lanzó Quantum-X y Spectrum-X, chips de silicio óptico encapsulado, y tres productos derivados de conmutadores: Quantum 3450-LD, Spectrum SN6810 y Spectrum SN6800.
Quantum 3450-LD:144 puertos de 800GB/s, ancho de banda de backplane de 115TB/s, refrigeración líquida
Spectrum SN6810:128个800GB/s端口,背板带宽102.4TB/s,液冷
Spectrum SN6800: 512 puertos de 800GB/s, ancho de banda de backplane de 409.6TB/s, refrigeración líquida
Los productos mencionados se clasifican bajo ‘NVIDIA Photonics’, que NVIDIA describe como una plataforma co-creada basada en la colaboración con socios de CPO. Por ejemplo, su modulador de anillo microeléctrico (MRM) se optimiza a partir del motor óptico de TSMC, que admite la modulación láser de alta potencia y alta eficiencia energética, y utiliza conectores de fibra óptica desmontables.
Lo interesante es que, según la información anterior de la industria, el modulador de anillo microscópico (MRM) de TSMC se creó en colaboración con Broadcom utilizando tecnologías de proceso de 3 nm y empaquetado avanzado como CoWoS.
Según los datos proporcionados por NVIDIA, la integración del conmutador óptico de Photonics mejora el rendimiento en un 3.5 veces en comparación con los conmutadores tradicionales, la eficiencia de implementación también puede mejorar en un 1.3 veces, además de una elasticidad de expansión de más de 10 veces.
Eficiencia del modelo PK DeepSeek: el ecosistema de software impulsa al agente de IA
Huang Renxun describe la ‘tarta’ de la infraestructura de AI en el lugar.
Debido a que en esta GTC que duró 2 horas, Hwang In-hyun habló solo aproximadamente media hora sobre software y tecnología de inteligencia corporal. Por lo tanto, muchos detalles se complementaron a través de la documentación oficial, en lugar de provenir completamente del lugar.
1)Nvidia Dynamo, el nuevo CUDA construido por Nvidia en el campo de la inferencia
Nvidia Dynamo es absolutamente el software estrella de este lanzamiento.
Es un software de código abierto diseñado específicamente para acelerar el razonamiento, el entrenamiento y la aceleración en todo el centro de datos. Los datos de rendimiento de Dynamo son impresionantes: en la arquitectura existente de Hopper, Dynamo puede duplicar el rendimiento del modelo estándar Llama. Para modelos de razonamiento especializados como DeepSeek, la optimización inteligente de razonamiento de NVIDIA Dynamo también puede aumentar la cantidad de tokens generados por GPU en más de 30 veces.
黄仁勋演示加了Dynamo的Blackwell能超过25倍的Hopper
Estas mejoras en Dynamo se deben principalmente a la distribución. Divide las diferentes etapas de cálculo de LLM (entender la consulta del usuario y generar la mejor respuesta) en diferentes GPU, lo que permite optimizar cada etapa de forma independiente, aumentando el rendimiento y acelerando la velocidad de respuesta.
La arquitectura del sistema de Dynamo
Por ejemplo, en la etapa de procesamiento de entrada, también conocida como etapa de precarga, Dynamo puede asignar eficientemente recursos de GPU para procesar la entrada del usuario. El sistema utilizará múltiples conjuntos de GPU para procesar consultas de usuarios en paralelo, con la esperanza de que la GPU procese de manera más dispersa y rápida. Dynamo utiliza el modo FP4 para llamar a múltiples GPU al mismo tiempo para procesar en paralelo la ‘lectura’ y ‘comprensión’ de los problemas de los usuarios, donde un conjunto de GPU procesa el conocimiento de antecedentes de la ‘Segunda Guerra Mundial’, otro grupo procesa los materiales históricos relacionados con la ‘causa’, y un tercer grupo procesa la línea de tiempo y eventos del ‘proceso’, esta etapa es como tener varios asistentes de investigación consultando simultáneamente una gran cantidad de información.
En la generación de tokens de salida, es decir, en la fase de decodificación, la GPU debe estar más enfocada y coherente. En comparación con el número de GPU, esta etapa requiere más ancho de banda para absorber la información de pensamiento de la etapa anterior, por lo que también requiere más lecturas de caché. Dynamo optimiza la comunicación entre GPU y la asignación de recursos para garantizar una generación de respuestas coherente y eficiente. Por un lado, aprovecha al máximo la capacidad de comunicación NVLink de gran ancho de banda de la arquitectura NVL72 para maximizar la eficiencia de la generación de tokens. Por otro lado, el “Smart Router” dirige las solicitudes a la GPU que ha almacenado en caché el ( clave-valor KV) relevante, lo que evita el doble cálculo y mejora en gran medida la velocidad de procesamiento. Al evitar el doble cálculo, se liberan algunos recursos de GPU y Dynamo puede asignar dinámicamente estos recursos inactivos a las nuevas solicitudes entrantes.
Esta arquitectura es muy similar a la arquitectura Mooncake de Kimi, pero NVIDIA ha brindado más soporte en la infraestructura subyacente. Mooncake puede aumentar aproximadamente 5 veces, pero Dynamo presenta mejoras más evidentes en la inferencia.
Por ejemplo, en varias innovaciones importantes de Dynamo, el ‘GPU Planner’ puede ajustar dinámicamente la asignación de GPU según la carga, la ‘biblioteca de comunicación de baja latencia’ optimiza la transferencia de datos entre GPU, y el ‘administrador de memoria’ mueve de manera inteligente los datos de inferencia entre dispositivos de almacenamiento de diferentes niveles de costo, lo que reduce aún más los costos operativos. El enrutador inteligente, el sistema de enrutamiento LLM perceptivo, dirige las solicitudes al GPU más adecuado, reduciendo los cálculos repetitivos. Todas estas capacidades optimizan la carga de GPU.
El sistema de inferencia de este software puede expandirse eficientemente a grandes clústeres de GPU, lo que permite que una única consulta de IA se amplíe sin problemas a hasta 1000 GPU para aprovechar al máximo los recursos del centro de datos.
Y para los operadores de GPU, esta mejora ha reducido significativamente el costo por millón de tokens y ha aumentado considerablemente la capacidad de producción. Al mismo tiempo, los usuarios individuales reciben más tokens por segundo, obtienen una respuesta más rápida y experimentan una mejoría en la experiencia del usuario.
Con Dynamo, alcanza la línea de ingresos dorada entre el rendimiento y la velocidad de respuesta del servidor
A diferencia de CUDA como base subyacente para la programación de GPU, Dynamo es un sistema de nivel superior que se centra en la asignación y gestión inteligente de cargas de inferencia a gran escala. Se encarga de la capa de programación distribuida optimizada para la inferencia, situada entre la aplicación y la infraestructura informática subyacente. Sin embargo, al igual que CUDA cambió por completo el panorama de la computación de GPU hace más de una década, Dynamo también podría abrir con éxito un nuevo paradigma de eficiencia de hardware y software para la inferencia.
Dynamo es completamente de código abierto y es compatible con todos los marcos principales, desde PyTorch hasta Tensor RT. Ser de código abierto no afecta su posición defensiva. Al igual que CUDA, solo es efectivo en las GPU de NVIDIA y es parte del conjunto de software de inferencia de IA de NVIDIA.
Con esta actualización de software, NVIDIA ha fortalecido su defensa contra chips ASIC de inferencia especializados como Groq. Es necesario combinar hardware y software para liderar la infraestructura de inferencia.
2)El nuevo modelo de Llama Nemotron es eficiente, pero aún no puede superar a DeepSeek.
Si bien Dynamo es bastante impresionante en cuanto a la utilización del servidor, Nvidia todavía tiene cierta brecha en el entrenamiento del modelo con los verdaderos expertos.
NVIDIA presentó en la GTC un nuevo modelo llamado Llama Nemotron, que destaca por su eficiencia y precisión. Se deriva de la serie de modelos Llama y, tras ajustes especiales de NVIDIA, este modelo es más ligero y optimizado en términos de algoritmos, con solo 48B en comparación con el Llama original. También posee capacidades de inferencia similares a las de o1. Al igual que Claude 3.7 y Grok 3, el modelo Llama Nemotron tiene un interruptor de capacidad de inferencia incorporado que los usuarios pueden elegir si desean activar. Esta serie se divide en tres niveles: Nano de nivel básico, Super de gama media y Ultra de gama alta, cada uno dirigido a las necesidades empresariales de diferentes escalas.
Los datos específicos de Llama Nemotron
En cuanto a la eficiencia, este conjunto de datos de ajuste fino del modelo está completamente compuesto por datos sintéticos generados por NVIDIA, con un total de aproximadamente 60B tokens. En comparación con el entrenamiento completo de 1.3 millones de horas de H100 de DeepSeek V3, este modelo con solo 1/15 de la cantidad de parámetros de DeepSeek V3 solo requirió 360,000 horas de H100 para el ajuste fino. La eficiencia de entrenamiento es un nivel inferior a la de DeepSeek.
En cuanto a la eficiencia en el razonamiento, el modelo Llama Nemotron Super 49B es mucho mejor que la generación anterior, su capacidad de procesamiento de tokens puede alcanzar hasta 5 veces la del modelo Llama 3 70B, con más de 3000 tokens por segundo en una sola GPU de centro de datos. Sin embargo, en los datos publicados en el último día de DeepSeek de código abierto, el nodo H800 tiene un rendimiento promedio de aproximadamente 73.7k tokens/s de entrada durante la etapa de precarga (incluidos los aciertos en caché) o aproximadamente 14.8k tokens/s de salida durante la decodificación. La diferencia entre los dos es bastante evidente.
En cuanto al rendimiento, el 49B Llama Nemotron Super supera al modelo Llama 70B destilado por DeepSeek R1 en todos los aspectos. Sin embargo, considerando la frecuente publicación de modelos de alto rendimiento con parámetros pequeños como el modelo Qwen QwQ 32B recientemente, es probable que Llama Nemotron Super tenga dificultades para destacar entre estos modelos que pueden competir con R1.
Lo más fatal es que este modelo, es igual a la confirmación de que DeepSeek quizás entienda mejor cómo entrenar la GPU durante el proceso de entrenamiento que NVIDIA.
3)El nuevo modelo es solo el aperitivo del ecosistema de agentes de IA de NVIDIA, AIQ de NVIDIA es el plato principal
¿Por qué NVIDIA desarrolla un modelo de inferencia? Principalmente para prepararse para el próximo punto de explosión de la IA que Huang considera importante: AI Agent. Desde que empresas como OpenAI, Claude, entre otras, han establecido la base de Agent gradualmente a través de DeepReasearch, MCP, NVIDIA claramente también cree que la era de Agent ha llegado.
El proyecto NVIDA AIQ es el intento de NVIDIA. Proporciona directamente un flujo de trabajo listo para usar de un Agente de IA planificador con el modelo de inferencia Llama Nemotron como núcleo. Este proyecto pertenece al nivel Blueprint de NVIDIA, que se refiere a un conjunto de flujos de trabajo de referencia preconfigurados, es una plantilla que ayuda a los desarrolladores a integrar más fácilmente la tecnología y las bibliotecas de NVIDIA. Y AIQ es la plantilla de Agente proporcionada por NVIDIA.
La arquitectura de NVIDA AIQ
Al igual que Manus, integra motores de búsqueda en la red y otras herramientas externas de IA profesional, lo que permite que este agente en sí mismo pueda realizar búsquedas y utilizar diversas herramientas. A través de la planificación del modelo de razonamiento de Llama Nemotron, reflexiona y optimiza soluciones para completar las tareas de los usuarios. Además, también admite la construcción de arquitecturas de flujo de trabajo de múltiples agentes.
Sistema de servicenow basado en esta plantilla
Más allá de Manus, tiene un sistema RAG complejo para archivos empresariales. Este sistema incluye una serie de pasos que van desde la extracción, incrustación, almacenamiento vectorial, reordenamiento hasta el procesamiento final a través de LLM, lo que garantiza que los datos empresariales estén disponibles para el agente.
Además, NVIDIA ha lanzado una plataforma de datos de inteligencia artificial que conecta modelos de razonamiento de inteligencia artificial a los sistemas de datos empresariales, creando una DeepReasearch específica para los datos empresariales. Esto representa una evolución significativa en la tecnología de almacenamiento, transformando los sistemas de almacenamiento de simples almacenes de datos a plataformas inteligentes con capacidades activas de razonamiento y análisis.
La composición de la plataforma de datos de IA
Además, AIQ enfatiza mucho el mecanismo de observabilidad y transparencia. Esto es muy importante para la seguridad y las mejoras posteriores. El equipo de desarrollo puede monitorear las actividades del Agente en tiempo real y continuar optimizando el sistema basándose en datos de rendimiento.
En general, NVIDA AIQ es una plantilla estándar de flujo de trabajo de Agent que proporciona varias capacidades de Agent. Es un software de construcción de Agent tipo Dify más tonto que ha evolucionado a la era de la inferencia.
Modelo base de robot humanoide lanzado, Nvidia busca crear un ecosistema encarnado completamente cerrado
1)Cosmos, permitiendo que la inteligencia encarnada comprenda el mundo
Si se trata de enfocarse en Agent o apostar por el presente, la disposición de NVIDIA en inteligencia encarnada puede considerarse completamente integrada en el futuro.
NVIDIA ha organizado los tres elementos clave: modelos, datos y potencia de cálculo, muy bien.
Comencemos por el modelo. Esta vez, GTC ha lanzado una versión mejorada del modelo base de inteligencia encarnada Cosmos anunciado en enero de este año.
Cosmos es un modelo que puede predecir imágenes futuras a través de las imágenes actuales. Puede tomar datos de entrada de texto/imagen, generar videos detallados y predecir la evolución de la escena combinando su estado actual (imagen/video) con acciones (señales de sugerencia/control). Debido a que esto requiere comprensión de las leyes físicas y causales del mundo, Nvidia llama a Cosmos el Modelo Básico del Mundo (WFM).
La arquitectura básica de Cosmos
Y para la inteligencia encarnada, la capacidad central es prever cómo afectarán las acciones de la máquina al mundo exterior. Solo así, el modelo puede planificar acciones en función de las predicciones, por lo que el modelo del mundo se convierte en el modelo base de la inteligencia encarnada. Con este modelo de predicción del mundo que cambia el comportamiento/tiempo-físico del mundo como base, a través de ajustes finos en conjuntos de datos concretos como la conducción automática, las tareas de robots, este modelo puede satisfacer diversas necesidades prácticas de implementación de inteligencia encarnada con formas físicas.
El modelo completo consta de tres partes de capacidades, la primera parte, Cosmos Transfer, convierte la entrada de texto estructurado de video en una salida de video realista controlable, generando datos de síntesis a gran escala a partir de texto. Esto resuelve el mayor cuello de botella de la inteligencia encarnada actual: el problema de la escasez de datos. Además, esta generación es una generación ‘controlable’, lo que significa que los usuarios pueden especificar parámetros específicos (como condiciones climáticas, atributos de objetos, etc.), el modelo ajustará los resultados generados en consecuencia, haciendo que el proceso de generación de datos sea más controlable y enfocado. Todo el proceso también puede ser combinado por Ominiverse y Cosmos.
Cosmos建立在Ominiverse上的现实模拟
La segunda parte de Cosmos Predict puede generar estados del mundo virtual a partir de entradas multimodales, admitiendo la generación de múltiples marcos y la predicción de trayectorias de acción. Esto significa que, dadas las condiciones iniciales y finales, el modelo puede generar un proceso intermedio razonable. Esta es la capacidad central de cognición y construcción del mundo físico.
La tercera parte es Cosmos Reason, que es un modelo abierto y completamente personalizable con capacidad de percepción espacio-temporal, comprende datos de video a través de razonamiento en cadenas mentales y predice resultados de interacción. Esto es una mejora en la capacidad de planificación y predicción de resultados.
Con la acumulación gradual de estas tres capacidades, Cosmos puede lograr un enlace completo de comportamiento desde la entrada de tokens de imagen del mundo real + tokens de comando de texto hasta la salida de tokens de acción de la máquina.
Este modelo base debería tener un rendimiento decente. Solo ha sido lanzado durante dos meses, las tres principales empresas 1X, Agility Robotics y Figure AI han comenzado a utilizarlo. Aunque los modelos de lenguaje no están a la vanguardia, la inteligencia artificial encarnada de NVIDIA realmente está en la primera línea.
2)Isaac GR00T N1, el primer modelo base de robot humano en el mundo
Con Cosmos en su lugar, NVIDIA naturalmente ajustó el modelo base Isaac GR00T N1 para robots humanoides utilizando este marco.
La arquitectura de doble sistema de Isaac GR00T N1
Adopta una arquitectura de doble sistema, con el ‘Sistema 1’ de respuesta rápida y el ‘Sistema 2’ de razonamiento profundo. Su ajuste fino integral le permite manejar tareas generales como agarrar, moverse y operar con ambos brazos. Además, se puede personalizar completamente según el robot específico, y los desarrolladores de robots pueden realizar un entrenamiento posterior con datos reales o sintéticos. Esto hace que este modelo pueda ser desplegado efectivamente en robots de diversas formas y tamaños.
Por ejemplo, NVIDIA colaboró con Google DeepMind y Disney para desarrollar el motor físico Newton, utilizando Isaac GR00T N1 como base para impulsar un robot BDX de Disney muy poco común. Esto muestra su gran versatilidad. Newton es un motor físico muy delicado, lo que es suficiente para establecer un sistema de recompensas físicas para entrenar la inteligencia corporal en entornos virtuales.
Huang Renxun interactúa ‘apasionadamente’ con el robot BDX en el escenario
4)Generación de datos, doble enfoque
NVIDIA, junto con NVIDIA Omniverse y el modelo base del mundo NVIDIA Cosmos Transfer mencionado anteriormente, ha creado el Blueprint de Isaac GR00T. Puede generar una gran cantidad de datos de movimiento sintético a partir de una pequeña demostración humana para el entrenamiento de operaciones de robots. Con los primeros componentes de Blueprint utilizados por NVIDIA, se generaron 780,000 trayectorias sintéticas en solo 11 horas, equivalente a 6,500 horas (aproximadamente 9 meses) de datos de demostración humana. Gran parte de los datos de Isaac GR00T N1 provienen de esto, lo que ha mejorado el rendimiento de GR00T N1 en un 40% en comparación con el uso exclusivo de datos reales.
Sistema de simulación gemela
Para cada modelo, con el sistema puramente virtual de Omniverse y el sistema de generación de imágenes del mundo real de Cosmos Transfer, NVIDIA puede proporcionar una gran cantidad de datos de alta calidad. NVIDIA también cubre el segundo aspecto de este modelo.
3)Sistema de potencia informática trinitaria, creando un imperio de cálculo de robots desde el entrenamiento hasta el extremo
Desde el año pasado, el Sr. Huang ha estado enfatizando el concepto de ‘tres computadoras’ en GTC: una es DGX, un servidor de GPU de gran tamaño que se utiliza para entrenar IA, incluida la inteligencia personal. La otra es AGX, una plataforma de cálculo empotrado diseñada por NVIDIA para el cómputo de borde y sistemas autónomos, que se utiliza para implementar la IA concreta en el extremo, como el núcleo de chips para la conducción autónoma o robots. La tercera es la computadora generadora de datos Omniverse+Cosmos.
Tres sistemas de cálculo con inteligencia encarnada
Este sistema fue nuevamente destacado por el Sr. Huang en este GTC, y mencionó especialmente que con este sistema de potencia de cálculo, pueden surgir robots a nivel de mil millones. Desde el entrenamiento hasta la implementación, todo el poder de cálculo está en manos de NVIDIA. Esta parte también se ha cerrado.
Conclusión
Si se compara únicamente con la generación anterior de chips Blackwell, Blackwell Ultra realmente no coincide en hardware con los adjetivos “bomba nuclear”, “as en la manga” anteriores, e incluso tiene un sabor un poco a exprimir pasta de dientes.
Pero si se mira desde la perspectiva de la planificación del roadmap, todo esto está dentro del diseño de Huang Renxun, la arquitectura Rubin del próximo año y el siguiente, desde el proceso de fabricación de chips, transistores, la integración del bastidor, la interconexión de GPU y de los armarios, entre otros aspectos, experimentarán una mejora sustancial, como dicen los chinos, “lo mejor está por venir”.
En comparación con el pastel para saciar el hambre en el nivel de hardware, en los últimos dos años, NVIDIA ha estado avanzando a pasos agigantados en el nivel de software.
En todo el ecosistema de software de NVIDIA, los servicios de los tres niveles, Meno, Nim y Blueprint, incluyen soluciones de pila completa para optimizar modelos, encapsular modelos y construir aplicaciones. El ecosistema de la compañía de servicios en la nube se superpone completamente con la IA de NVIDIA. Con la adición de este nuevo Agente, NVIDIA debe absorber todas las partes de la infraestructura de IA, excepto el modelo base.
En esta parte del software, el apetito de Lao Huang es tan grande como el precio de las acciones de Nvidia.
Mientras tanto, en el mercado de robots, Nvidia tiene ambiciones aún mayores. Controla los tres elementos clave: modelos, datos y potencia de cálculo. Aunque no ha alcanzado el dominio en los modelos de lenguaje base, está llenando los vacíos en la inteligencia encarnada. De manera vaga, un gigante de la inteligencia encarnada ya ha aparecido en el horizonte.
Dentro de esto, cada etapa, cada producto corresponde a un mercado potencial de cientos de miles de millones. El afortunado rey de los juegos de azar, Huang Renxun, que apostó todo al principio, comenzó un juego de apuestas aún mayor con el dinero obtenido de su monopolio de GPU.
Si en este juego, el mercado de software o robots domina en cualquier aspecto, entonces NVIDIA sería el Google de la era de la IA, el dominador de nivel superior en la cadena alimentaria.
Sin embargo, al observar la tasa de beneficio de las GPU de NVIDIA, todavía esperamos un futuro así, no ha llegado.
Afortunadamente, para el Sr. Huang, esta es la gran apuesta que nunca antes ha manejado en su vida, y es difícil predecir quién ganará.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Una lectura para comprender la conferencia GTC de Jen-Hsun Huang de NVIDIA: Creer firmemente en que la Potencia computacional nunca duerme
Autores: Su Yang, Hao Boyang; Fuente: Tencent Technology
Como “vendedor de palas” en la era de la IA, Huang Renxun y su NVIDIA siempre creen que la potencia de cálculo nunca duerme.
Huang Renxun dijo en su discurso en GTC que la inferencia aumenta la demanda de potencia de cálculo en 100 veces.
En la conferencia de GTC de hoy, Huang Renxun presentó la nueva GPU Blackwell Ultra, así como la SKU del servidor derivada de ella para inferencia y Agent, que incluye la serie completa de RTX basada en la arquitectura Blackwell. Todo esto está relacionado con la potencia de cálculo, pero lo más importante a continuación es cómo consumir de manera razonable y eficaz la potencia de cálculo constante.
En los ojos de Huang Renxun, AGI requiere potencia de cálculo, los robots inteligentes con cuerpo requieren potencia de cálculo, y la construcción de Omniverse y modelos del mundo requieren una fuente constante de potencia de cálculo. En cuanto a cuánta potencia de cálculo se necesita para que los humanos finalmente construyan un “universo paralelo” virtual, NVIDIA ha dado una respuesta: 100 veces más que en el pasado.
Para respaldar su punto de vista, Huang Renxun mostró un conjunto de datos en el lugar de GTC: en 2024, los cuatro principales proveedores de la nube en Estados Unidos compraron un total de 1.3 millones de chips de la arquitectura Hopper, y para 2025, esta cifra se disparó a 3.6 millones de GPU Blackwell.
A continuación se presentan algunos puntos clave de la conferencia GTC 2025 de NVIDIA recopilados por Tencent Technology:
Blackwell全家桶上线
1)El “bomba nuclear” anual Blackwell Ultra está exprimiendo la pasta de dientes
NVIDIA lanzó la arquitectura Blackwell y presentó el chip GB200 en el GTC del año pasado, este año ajustó ligeramente el nombre oficial, ya no se llama GB300 como se rumoreaba anteriormente, sino que directamente se llama Blakwell Ultra.
Pero en términos de hardware, es simplemente el cambio a una nueva memoria HBM el año pasado. En pocas palabras, Blackwell Ultra= versión de gran memoria de Blackwell.
Blackwell Ultra está compuesto por dos chips de arquitectura Blackwell con tecnología TSMC N4P (5nm) y CPU Grace, junto con una memoria HBM3e de 12 capas más avanzada, aumentando la memoria de video a 288GB, y al igual que la generación anterior, es compatible con la quinta generación de NVLink, con un ancho de banda de interconexión de chips de 1.8TB/s.
Parámetros de rendimiento de NVLink a lo largo de los años
Basado en el almacenamiento mejorado, la potencia de cálculo de precisión FP4 de Blackwell GPU puede alcanzar los 15PetaFLOPS, y la velocidad de inferencia basada en el mecanismo de Aceleración de Atención es 2.5 veces más rápida que la del chip de la arquitectura Hopper.
2)Blackwell Ultra NVL72:AI推理专用机柜
Blackwell Ultra NVL72官方图
Al igual que el GB200 NVL72, NVIDIA también ha lanzado este año un producto similar, el gabinete Blackwell Ultra NVL72, compuesto por un total de 18 bandejas de cálculo. Cada bandeja de cálculo contiene 4 GPU Blackwell Ultra y 2 CPU Grace, lo que suma un total de 72 GPU Blackwell Ultra y 36 CPU Grace, con una memoria de 20TB, un ancho de banda total de 576TB/s, además de 9 bandejas de conmutadores NVLink (18 chips de conmutadores NVLink), con un ancho de banda NVLink entre nodos de 130TB/s.
El armario tiene 72 tarjetas de red CX-8 integradas, que proporcionan un ancho de banda de 14.4TB/s. Las tarjetas Quantum-X800 InfiniBand y Spectrum-X 800G Ethernet pueden reducir la latencia y la fluctuación, y son compatibles con clústeres de IA a gran escala. Además, el bastidor integra 18 tarjetas BlueField-3 DPU para mejorar redes multiinquilino, seguridad y aceleración de datos.
NVIDIA dice que este producto está especialmente diseñado para la era de la inferencia de IA, con aplicaciones que incluyen IA de inferencia, agentes y física AI(, utilizado para la síntesis de datos de entrenamiento de robots y conducción inteligente). En comparación con el producto de la generación anterior, GB200 NVL72, el rendimiento de IA se ha incrementado en un 1.5 veces, y en comparación con los productos de bastidor DGX con la misma arquitectura de Hopper, puede ofrecer 50 veces más oportunidades de ingresos para los centros de datos.
Según la información proporcionada por el oficial, la inferencia de 671 billion parameters DeepSeek-R1, basado en el producto H100, puede lograr 100 tokens por segundo, mientras que utilizando el esquema Blackwell Ultra NVL72, se puede alcanzar 1000 tokens por segundo.
En términos de tiempo, para la misma tarea de razonamiento, H100 necesita 1.5 minutos para completarla, mientras que Blackwell Ultra NVL72 solo necesita 15 segundos.
Parámetros de hardware Blackwell Ultra NVL72 y GB200 NVL72
Según la información proporcionada por NVIDIA, se espera que el producto relacionado con Blackwell NVL72 se lance en la segunda mitad de 2025, con clientes que incluyen fabricantes de servidores, proveedores de servicios en la nube y servicios de alquiler de potencia de cálculo.
15 fabricantes como Cisco/Dell/HPE/Lenovo/Supermicro
Plataformas principales como AWS/Google Cloud/Azure/Oracle Cloud
CoreWeave/Lambda/Yotta等
3)Adelanto del auténtico ‘bomba nuclear’ GPU Rubin chip
Según el roadmap de NVIDIA, el hogar de GTC2025 es Blackwell Ultra.
Sin embargo, Huang Renxun también aprovechó la oportunidad para anunciar la próxima generación de GPU basada en la arquitectura Rubin y el potente gabinete Vera Rubin NVL144, que se lanzará en 2026. Este sistema contará con 72 CPU Vera y 144 GPU Rubin, con chips HBM4 de 288 GB de memoria gráfica y un ancho de banda de 13 TB/s, junto con la sexta generación de NVLink y la tarjeta de red CX9.
¿Qué tan poderoso es este producto? La potencia de cálculo de inferencia de precisión FP4 alcanza los 3.6ExaFLOPS, y la potencia de entrenamiento de precisión FP8 también alcanza los 1.2ExaFLOPS, lo que es 3.3 veces la potencia del Blackwell Ultra NVL72.
Si sientes que no es suficiente, no te preocupes, en 2027 habrá una versión más potente del gabinete Rubin Ultra NVL576 con FP4 para razonamiento de alta precisión y FP8 para capacidad de entrenamiento con 15ExaFLOPS y 5ExaFLOPS respectivamente, 14 veces más que Blackwell Ultra NVL72.
Parámetros Rubin Ultra NVL144 y Rubin Ultra NVL576 proporcionados por Nvidia oficialmente.
4)Blackwell Ultra版DGX Super POD“超算工厂“
Para aquellos clientes que actualmente no pueden satisfacer sus necesidades con Blackwell Ultra NVL72 y que no necesitan construir un clúster de IA a gran escala, la solución de NVIDIA es la fábrica de supercomputación de IA DGX Super POD, basada en Blackwell Ultra y lista para usar.
Como una fábrica de supercomputación de IA plug-and-play, DGX Super POD está dirigido principalmente a escenarios de IA generativa, agentes de IA, simulación física, etc., cubriendo las necesidades de expansión de potencia de cálculo de extremo a extremo, desde pre-entrenamiento, post-entrenamiento hasta entornos de producción. Equinix, como el primer proveedor de servicios, proporciona soporte de infraestructura de enfriamiento líquido/aéreo.
DGX SuperPod construido por Blackwell Ultra
Existen dos versiones del DGX Super POD personalizado basado en Blackwell Ultra:
5)DGX Spark与DGX Station
En enero de este año, NVIDIA mostró un producto conceptual de IA, Project DIGITS, con un precio de 3000 dólares en el CES. Ahora se llama oficialmente DGX Spark.
En cuanto a las especificaciones del producto, está equipado con el chip GB10, con una potencia de cálculo de hasta 1PetaFlops con precisión FP4, 128GB de memoria LPDDR5X integrada, tarjeta de red CX-7, almacenamiento NVMe de 4TB, ejecutando el sistema operativo DGX OS basado en Linux personalizado, compatible con Pytorch y otros marcos, y preinstalado con algunas herramientas básicas de desarrollo de software de IA proporcionadas por NVIDIA, capaz de ejecutar modelos de 200 mil millones de parámetros. Las dimensiones de la máquina son similares a las del Mac mini, dos DGX Spark se pueden interconectar, y también es posible ejecutar modelos con más de 400 mil millones de parámetros.
Aunque lo llamemos AI PC, en realidad sigue siendo parte de la categoría de supercomputación, por lo que se incluye en la serie de productos DGX en lugar de en productos de consumo como RTX.
Sin embargo, también hay personas que critican este producto, ya que el rendimiento promocionado de FP4 es bajo en usabilidad, equivalente solo al RTX 5070 en precisión FP16, e incluso comparable con el Arc B580 de 250 dólares, por lo tanto, tiene una relación calidad-precio muy baja.
El ordenador DGX Spark y la estación de trabajo DGX Station
Además del DGX Spark de nombre oficial, NVIDIA también ha lanzado una estación de trabajo de IA basada en Blackwell Ultra, que cuenta con una CPU Grace y una GPU Blackwell Ultra, junto con 784 GB de memoria unificada, una tarjeta de red CX-8, y ofrece una potencia de cálculo de IA de 20 PetaFlops (no marcada oficialmente, teóricamente también es precisión FP4).
6)RTX barrer AI PC, y también apretarse en el centro de datos
Todos los productos SKU presentados anteriormente se basan en la CPU Grace y la GPU Blackwell Ultra, y todos son productos de nivel empresarial. Dado que muchas personas consideran las maravillas de productos como RTX 4090 en el razonamiento de IA, NVIDIA también ha fortalecido aún más la integración de la serie Blackwell y RTX en GTC de esta vez, lanzando una gran cantidad de GPU relacionadas con PC de IA con memoria GDDR7 incorporada, que abarcan escenarios como portátiles, escritorios e incluso centros de datos.
NVIDIA ha creado un ‘kit’ completo de inteligencia artificial para computación empresarial
Esto es solo una parte de los SKU personalizados para diferentes escenarios basados en el chip Blackwell Ultra, desde estaciones de trabajo hasta clústeres de centros de datos, NVIDIA lo llama “Familia Blackwell”, que se traduce al chino como “Blackwell全家桶”, que es muy apropiado.
NVIDIA Photonics: sistema CPO que se apoya en los hombros de los compañeros de equipo
El concepto de módulo encapsulado de fotónica compartida (CPO), en pocas palabras, es encapsular conjuntamente el chip del conmutador y el módulo óptico, lo que puede convertir la señal óptica en señal eléctrica y aprovechar al máximo el rendimiento de transmisión de la señal óptica.
Antes de esto, la industria ha estado debatiendo sobre los productos de conmutación de red CPO de NVIDIA, pero aún no se han lanzado. Huang Renxun también dio una explicación en el lugar: debido al uso generalizado de la fibra óptica en los centros de datos, el consumo de energía de la red óptica es equivalente al 10% de los recursos de computación, y el costo de la conexión óptica afecta directamente a la mejora de la red Scale-Out y la densidad de rendimiento de la AI de los nodos de cálculo.
Los parámetros de los dos chips encapsulados de silicio óptico Quantum-X y Spectrum-X mostrados en GTC.
Este año, GTC de NVIDIA lanzó Quantum-X y Spectrum-X, chips de silicio óptico encapsulado, y tres productos derivados de conmutadores: Quantum 3450-LD, Spectrum SN6810 y Spectrum SN6800.
Los productos mencionados se clasifican bajo ‘NVIDIA Photonics’, que NVIDIA describe como una plataforma co-creada basada en la colaboración con socios de CPO. Por ejemplo, su modulador de anillo microeléctrico (MRM) se optimiza a partir del motor óptico de TSMC, que admite la modulación láser de alta potencia y alta eficiencia energética, y utiliza conectores de fibra óptica desmontables.
Lo interesante es que, según la información anterior de la industria, el modulador de anillo microscópico (MRM) de TSMC se creó en colaboración con Broadcom utilizando tecnologías de proceso de 3 nm y empaquetado avanzado como CoWoS.
Según los datos proporcionados por NVIDIA, la integración del conmutador óptico de Photonics mejora el rendimiento en un 3.5 veces en comparación con los conmutadores tradicionales, la eficiencia de implementación también puede mejorar en un 1.3 veces, además de una elasticidad de expansión de más de 10 veces.
Eficiencia del modelo PK DeepSeek: el ecosistema de software impulsa al agente de IA
Huang Renxun describe la ‘tarta’ de la infraestructura de AI en el lugar.
Debido a que en esta GTC que duró 2 horas, Hwang In-hyun habló solo aproximadamente media hora sobre software y tecnología de inteligencia corporal. Por lo tanto, muchos detalles se complementaron a través de la documentación oficial, en lugar de provenir completamente del lugar.
1)Nvidia Dynamo, el nuevo CUDA construido por Nvidia en el campo de la inferencia
Nvidia Dynamo es absolutamente el software estrella de este lanzamiento.
Es un software de código abierto diseñado específicamente para acelerar el razonamiento, el entrenamiento y la aceleración en todo el centro de datos. Los datos de rendimiento de Dynamo son impresionantes: en la arquitectura existente de Hopper, Dynamo puede duplicar el rendimiento del modelo estándar Llama. Para modelos de razonamiento especializados como DeepSeek, la optimización inteligente de razonamiento de NVIDIA Dynamo también puede aumentar la cantidad de tokens generados por GPU en más de 30 veces.
黄仁勋演示加了Dynamo的Blackwell能超过25倍的Hopper
Estas mejoras en Dynamo se deben principalmente a la distribución. Divide las diferentes etapas de cálculo de LLM (entender la consulta del usuario y generar la mejor respuesta) en diferentes GPU, lo que permite optimizar cada etapa de forma independiente, aumentando el rendimiento y acelerando la velocidad de respuesta.
La arquitectura del sistema de Dynamo
Por ejemplo, en la etapa de procesamiento de entrada, también conocida como etapa de precarga, Dynamo puede asignar eficientemente recursos de GPU para procesar la entrada del usuario. El sistema utilizará múltiples conjuntos de GPU para procesar consultas de usuarios en paralelo, con la esperanza de que la GPU procese de manera más dispersa y rápida. Dynamo utiliza el modo FP4 para llamar a múltiples GPU al mismo tiempo para procesar en paralelo la ‘lectura’ y ‘comprensión’ de los problemas de los usuarios, donde un conjunto de GPU procesa el conocimiento de antecedentes de la ‘Segunda Guerra Mundial’, otro grupo procesa los materiales históricos relacionados con la ‘causa’, y un tercer grupo procesa la línea de tiempo y eventos del ‘proceso’, esta etapa es como tener varios asistentes de investigación consultando simultáneamente una gran cantidad de información.
En la generación de tokens de salida, es decir, en la fase de decodificación, la GPU debe estar más enfocada y coherente. En comparación con el número de GPU, esta etapa requiere más ancho de banda para absorber la información de pensamiento de la etapa anterior, por lo que también requiere más lecturas de caché. Dynamo optimiza la comunicación entre GPU y la asignación de recursos para garantizar una generación de respuestas coherente y eficiente. Por un lado, aprovecha al máximo la capacidad de comunicación NVLink de gran ancho de banda de la arquitectura NVL72 para maximizar la eficiencia de la generación de tokens. Por otro lado, el “Smart Router” dirige las solicitudes a la GPU que ha almacenado en caché el ( clave-valor KV) relevante, lo que evita el doble cálculo y mejora en gran medida la velocidad de procesamiento. Al evitar el doble cálculo, se liberan algunos recursos de GPU y Dynamo puede asignar dinámicamente estos recursos inactivos a las nuevas solicitudes entrantes.
Esta arquitectura es muy similar a la arquitectura Mooncake de Kimi, pero NVIDIA ha brindado más soporte en la infraestructura subyacente. Mooncake puede aumentar aproximadamente 5 veces, pero Dynamo presenta mejoras más evidentes en la inferencia.
Por ejemplo, en varias innovaciones importantes de Dynamo, el ‘GPU Planner’ puede ajustar dinámicamente la asignación de GPU según la carga, la ‘biblioteca de comunicación de baja latencia’ optimiza la transferencia de datos entre GPU, y el ‘administrador de memoria’ mueve de manera inteligente los datos de inferencia entre dispositivos de almacenamiento de diferentes niveles de costo, lo que reduce aún más los costos operativos. El enrutador inteligente, el sistema de enrutamiento LLM perceptivo, dirige las solicitudes al GPU más adecuado, reduciendo los cálculos repetitivos. Todas estas capacidades optimizan la carga de GPU.
El sistema de inferencia de este software puede expandirse eficientemente a grandes clústeres de GPU, lo que permite que una única consulta de IA se amplíe sin problemas a hasta 1000 GPU para aprovechar al máximo los recursos del centro de datos.
Y para los operadores de GPU, esta mejora ha reducido significativamente el costo por millón de tokens y ha aumentado considerablemente la capacidad de producción. Al mismo tiempo, los usuarios individuales reciben más tokens por segundo, obtienen una respuesta más rápida y experimentan una mejoría en la experiencia del usuario.
Con Dynamo, alcanza la línea de ingresos dorada entre el rendimiento y la velocidad de respuesta del servidor
A diferencia de CUDA como base subyacente para la programación de GPU, Dynamo es un sistema de nivel superior que se centra en la asignación y gestión inteligente de cargas de inferencia a gran escala. Se encarga de la capa de programación distribuida optimizada para la inferencia, situada entre la aplicación y la infraestructura informática subyacente. Sin embargo, al igual que CUDA cambió por completo el panorama de la computación de GPU hace más de una década, Dynamo también podría abrir con éxito un nuevo paradigma de eficiencia de hardware y software para la inferencia.
Dynamo es completamente de código abierto y es compatible con todos los marcos principales, desde PyTorch hasta Tensor RT. Ser de código abierto no afecta su posición defensiva. Al igual que CUDA, solo es efectivo en las GPU de NVIDIA y es parte del conjunto de software de inferencia de IA de NVIDIA.
Con esta actualización de software, NVIDIA ha fortalecido su defensa contra chips ASIC de inferencia especializados como Groq. Es necesario combinar hardware y software para liderar la infraestructura de inferencia.
2)El nuevo modelo de Llama Nemotron es eficiente, pero aún no puede superar a DeepSeek.
Si bien Dynamo es bastante impresionante en cuanto a la utilización del servidor, Nvidia todavía tiene cierta brecha en el entrenamiento del modelo con los verdaderos expertos.
NVIDIA presentó en la GTC un nuevo modelo llamado Llama Nemotron, que destaca por su eficiencia y precisión. Se deriva de la serie de modelos Llama y, tras ajustes especiales de NVIDIA, este modelo es más ligero y optimizado en términos de algoritmos, con solo 48B en comparación con el Llama original. También posee capacidades de inferencia similares a las de o1. Al igual que Claude 3.7 y Grok 3, el modelo Llama Nemotron tiene un interruptor de capacidad de inferencia incorporado que los usuarios pueden elegir si desean activar. Esta serie se divide en tres niveles: Nano de nivel básico, Super de gama media y Ultra de gama alta, cada uno dirigido a las necesidades empresariales de diferentes escalas.
Los datos específicos de Llama Nemotron
En cuanto a la eficiencia, este conjunto de datos de ajuste fino del modelo está completamente compuesto por datos sintéticos generados por NVIDIA, con un total de aproximadamente 60B tokens. En comparación con el entrenamiento completo de 1.3 millones de horas de H100 de DeepSeek V3, este modelo con solo 1/15 de la cantidad de parámetros de DeepSeek V3 solo requirió 360,000 horas de H100 para el ajuste fino. La eficiencia de entrenamiento es un nivel inferior a la de DeepSeek.
En cuanto a la eficiencia en el razonamiento, el modelo Llama Nemotron Super 49B es mucho mejor que la generación anterior, su capacidad de procesamiento de tokens puede alcanzar hasta 5 veces la del modelo Llama 3 70B, con más de 3000 tokens por segundo en una sola GPU de centro de datos. Sin embargo, en los datos publicados en el último día de DeepSeek de código abierto, el nodo H800 tiene un rendimiento promedio de aproximadamente 73.7k tokens/s de entrada durante la etapa de precarga (incluidos los aciertos en caché) o aproximadamente 14.8k tokens/s de salida durante la decodificación. La diferencia entre los dos es bastante evidente.
En cuanto al rendimiento, el 49B Llama Nemotron Super supera al modelo Llama 70B destilado por DeepSeek R1 en todos los aspectos. Sin embargo, considerando la frecuente publicación de modelos de alto rendimiento con parámetros pequeños como el modelo Qwen QwQ 32B recientemente, es probable que Llama Nemotron Super tenga dificultades para destacar entre estos modelos que pueden competir con R1.
Lo más fatal es que este modelo, es igual a la confirmación de que DeepSeek quizás entienda mejor cómo entrenar la GPU durante el proceso de entrenamiento que NVIDIA.
3)El nuevo modelo es solo el aperitivo del ecosistema de agentes de IA de NVIDIA, AIQ de NVIDIA es el plato principal
¿Por qué NVIDIA desarrolla un modelo de inferencia? Principalmente para prepararse para el próximo punto de explosión de la IA que Huang considera importante: AI Agent. Desde que empresas como OpenAI, Claude, entre otras, han establecido la base de Agent gradualmente a través de DeepReasearch, MCP, NVIDIA claramente también cree que la era de Agent ha llegado.
El proyecto NVIDA AIQ es el intento de NVIDIA. Proporciona directamente un flujo de trabajo listo para usar de un Agente de IA planificador con el modelo de inferencia Llama Nemotron como núcleo. Este proyecto pertenece al nivel Blueprint de NVIDIA, que se refiere a un conjunto de flujos de trabajo de referencia preconfigurados, es una plantilla que ayuda a los desarrolladores a integrar más fácilmente la tecnología y las bibliotecas de NVIDIA. Y AIQ es la plantilla de Agente proporcionada por NVIDIA.
La arquitectura de NVIDA AIQ
Al igual que Manus, integra motores de búsqueda en la red y otras herramientas externas de IA profesional, lo que permite que este agente en sí mismo pueda realizar búsquedas y utilizar diversas herramientas. A través de la planificación del modelo de razonamiento de Llama Nemotron, reflexiona y optimiza soluciones para completar las tareas de los usuarios. Además, también admite la construcción de arquitecturas de flujo de trabajo de múltiples agentes.
Sistema de servicenow basado en esta plantilla
Más allá de Manus, tiene un sistema RAG complejo para archivos empresariales. Este sistema incluye una serie de pasos que van desde la extracción, incrustación, almacenamiento vectorial, reordenamiento hasta el procesamiento final a través de LLM, lo que garantiza que los datos empresariales estén disponibles para el agente.
Además, NVIDIA ha lanzado una plataforma de datos de inteligencia artificial que conecta modelos de razonamiento de inteligencia artificial a los sistemas de datos empresariales, creando una DeepReasearch específica para los datos empresariales. Esto representa una evolución significativa en la tecnología de almacenamiento, transformando los sistemas de almacenamiento de simples almacenes de datos a plataformas inteligentes con capacidades activas de razonamiento y análisis.
La composición de la plataforma de datos de IA
Además, AIQ enfatiza mucho el mecanismo de observabilidad y transparencia. Esto es muy importante para la seguridad y las mejoras posteriores. El equipo de desarrollo puede monitorear las actividades del Agente en tiempo real y continuar optimizando el sistema basándose en datos de rendimiento.
En general, NVIDA AIQ es una plantilla estándar de flujo de trabajo de Agent que proporciona varias capacidades de Agent. Es un software de construcción de Agent tipo Dify más tonto que ha evolucionado a la era de la inferencia.
Modelo base de robot humanoide lanzado, Nvidia busca crear un ecosistema encarnado completamente cerrado
1)Cosmos, permitiendo que la inteligencia encarnada comprenda el mundo
Si se trata de enfocarse en Agent o apostar por el presente, la disposición de NVIDIA en inteligencia encarnada puede considerarse completamente integrada en el futuro.
NVIDIA ha organizado los tres elementos clave: modelos, datos y potencia de cálculo, muy bien.
Comencemos por el modelo. Esta vez, GTC ha lanzado una versión mejorada del modelo base de inteligencia encarnada Cosmos anunciado en enero de este año.
Cosmos es un modelo que puede predecir imágenes futuras a través de las imágenes actuales. Puede tomar datos de entrada de texto/imagen, generar videos detallados y predecir la evolución de la escena combinando su estado actual (imagen/video) con acciones (señales de sugerencia/control). Debido a que esto requiere comprensión de las leyes físicas y causales del mundo, Nvidia llama a Cosmos el Modelo Básico del Mundo (WFM).
La arquitectura básica de Cosmos
Y para la inteligencia encarnada, la capacidad central es prever cómo afectarán las acciones de la máquina al mundo exterior. Solo así, el modelo puede planificar acciones en función de las predicciones, por lo que el modelo del mundo se convierte en el modelo base de la inteligencia encarnada. Con este modelo de predicción del mundo que cambia el comportamiento/tiempo-físico del mundo como base, a través de ajustes finos en conjuntos de datos concretos como la conducción automática, las tareas de robots, este modelo puede satisfacer diversas necesidades prácticas de implementación de inteligencia encarnada con formas físicas.
El modelo completo consta de tres partes de capacidades, la primera parte, Cosmos Transfer, convierte la entrada de texto estructurado de video en una salida de video realista controlable, generando datos de síntesis a gran escala a partir de texto. Esto resuelve el mayor cuello de botella de la inteligencia encarnada actual: el problema de la escasez de datos. Además, esta generación es una generación ‘controlable’, lo que significa que los usuarios pueden especificar parámetros específicos (como condiciones climáticas, atributos de objetos, etc.), el modelo ajustará los resultados generados en consecuencia, haciendo que el proceso de generación de datos sea más controlable y enfocado. Todo el proceso también puede ser combinado por Ominiverse y Cosmos.
Cosmos建立在Ominiverse上的现实模拟
La segunda parte de Cosmos Predict puede generar estados del mundo virtual a partir de entradas multimodales, admitiendo la generación de múltiples marcos y la predicción de trayectorias de acción. Esto significa que, dadas las condiciones iniciales y finales, el modelo puede generar un proceso intermedio razonable. Esta es la capacidad central de cognición y construcción del mundo físico.
La tercera parte es Cosmos Reason, que es un modelo abierto y completamente personalizable con capacidad de percepción espacio-temporal, comprende datos de video a través de razonamiento en cadenas mentales y predice resultados de interacción. Esto es una mejora en la capacidad de planificación y predicción de resultados.
Con la acumulación gradual de estas tres capacidades, Cosmos puede lograr un enlace completo de comportamiento desde la entrada de tokens de imagen del mundo real + tokens de comando de texto hasta la salida de tokens de acción de la máquina.
Este modelo base debería tener un rendimiento decente. Solo ha sido lanzado durante dos meses, las tres principales empresas 1X, Agility Robotics y Figure AI han comenzado a utilizarlo. Aunque los modelos de lenguaje no están a la vanguardia, la inteligencia artificial encarnada de NVIDIA realmente está en la primera línea.
2)Isaac GR00T N1, el primer modelo base de robot humano en el mundo
Con Cosmos en su lugar, NVIDIA naturalmente ajustó el modelo base Isaac GR00T N1 para robots humanoides utilizando este marco.
La arquitectura de doble sistema de Isaac GR00T N1
Adopta una arquitectura de doble sistema, con el ‘Sistema 1’ de respuesta rápida y el ‘Sistema 2’ de razonamiento profundo. Su ajuste fino integral le permite manejar tareas generales como agarrar, moverse y operar con ambos brazos. Además, se puede personalizar completamente según el robot específico, y los desarrolladores de robots pueden realizar un entrenamiento posterior con datos reales o sintéticos. Esto hace que este modelo pueda ser desplegado efectivamente en robots de diversas formas y tamaños.
Por ejemplo, NVIDIA colaboró con Google DeepMind y Disney para desarrollar el motor físico Newton, utilizando Isaac GR00T N1 como base para impulsar un robot BDX de Disney muy poco común. Esto muestra su gran versatilidad. Newton es un motor físico muy delicado, lo que es suficiente para establecer un sistema de recompensas físicas para entrenar la inteligencia corporal en entornos virtuales.
Huang Renxun interactúa ‘apasionadamente’ con el robot BDX en el escenario
4)Generación de datos, doble enfoque
NVIDIA, junto con NVIDIA Omniverse y el modelo base del mundo NVIDIA Cosmos Transfer mencionado anteriormente, ha creado el Blueprint de Isaac GR00T. Puede generar una gran cantidad de datos de movimiento sintético a partir de una pequeña demostración humana para el entrenamiento de operaciones de robots. Con los primeros componentes de Blueprint utilizados por NVIDIA, se generaron 780,000 trayectorias sintéticas en solo 11 horas, equivalente a 6,500 horas (aproximadamente 9 meses) de datos de demostración humana. Gran parte de los datos de Isaac GR00T N1 provienen de esto, lo que ha mejorado el rendimiento de GR00T N1 en un 40% en comparación con el uso exclusivo de datos reales.
Sistema de simulación gemela
Para cada modelo, con el sistema puramente virtual de Omniverse y el sistema de generación de imágenes del mundo real de Cosmos Transfer, NVIDIA puede proporcionar una gran cantidad de datos de alta calidad. NVIDIA también cubre el segundo aspecto de este modelo.
3)Sistema de potencia informática trinitaria, creando un imperio de cálculo de robots desde el entrenamiento hasta el extremo
Desde el año pasado, el Sr. Huang ha estado enfatizando el concepto de ‘tres computadoras’ en GTC: una es DGX, un servidor de GPU de gran tamaño que se utiliza para entrenar IA, incluida la inteligencia personal. La otra es AGX, una plataforma de cálculo empotrado diseñada por NVIDIA para el cómputo de borde y sistemas autónomos, que se utiliza para implementar la IA concreta en el extremo, como el núcleo de chips para la conducción autónoma o robots. La tercera es la computadora generadora de datos Omniverse+Cosmos.
Tres sistemas de cálculo con inteligencia encarnada
Este sistema fue nuevamente destacado por el Sr. Huang en este GTC, y mencionó especialmente que con este sistema de potencia de cálculo, pueden surgir robots a nivel de mil millones. Desde el entrenamiento hasta la implementación, todo el poder de cálculo está en manos de NVIDIA. Esta parte también se ha cerrado.
Conclusión
Si se compara únicamente con la generación anterior de chips Blackwell, Blackwell Ultra realmente no coincide en hardware con los adjetivos “bomba nuclear”, “as en la manga” anteriores, e incluso tiene un sabor un poco a exprimir pasta de dientes.
Pero si se mira desde la perspectiva de la planificación del roadmap, todo esto está dentro del diseño de Huang Renxun, la arquitectura Rubin del próximo año y el siguiente, desde el proceso de fabricación de chips, transistores, la integración del bastidor, la interconexión de GPU y de los armarios, entre otros aspectos, experimentarán una mejora sustancial, como dicen los chinos, “lo mejor está por venir”.
En comparación con el pastel para saciar el hambre en el nivel de hardware, en los últimos dos años, NVIDIA ha estado avanzando a pasos agigantados en el nivel de software.
En todo el ecosistema de software de NVIDIA, los servicios de los tres niveles, Meno, Nim y Blueprint, incluyen soluciones de pila completa para optimizar modelos, encapsular modelos y construir aplicaciones. El ecosistema de la compañía de servicios en la nube se superpone completamente con la IA de NVIDIA. Con la adición de este nuevo Agente, NVIDIA debe absorber todas las partes de la infraestructura de IA, excepto el modelo base.
En esta parte del software, el apetito de Lao Huang es tan grande como el precio de las acciones de Nvidia.
Mientras tanto, en el mercado de robots, Nvidia tiene ambiciones aún mayores. Controla los tres elementos clave: modelos, datos y potencia de cálculo. Aunque no ha alcanzado el dominio en los modelos de lenguaje base, está llenando los vacíos en la inteligencia encarnada. De manera vaga, un gigante de la inteligencia encarnada ya ha aparecido en el horizonte.
Dentro de esto, cada etapa, cada producto corresponde a un mercado potencial de cientos de miles de millones. El afortunado rey de los juegos de azar, Huang Renxun, que apostó todo al principio, comenzó un juego de apuestas aún mayor con el dinero obtenido de su monopolio de GPU.
Si en este juego, el mercado de software o robots domina en cualquier aspecto, entonces NVIDIA sería el Google de la era de la IA, el dominador de nivel superior en la cadena alimentaria.
Sin embargo, al observar la tasa de beneficio de las GPU de NVIDIA, todavía esperamos un futuro así, no ha llegado.
Afortunadamente, para el Sr. Huang, esta es la gran apuesta que nunca antes ha manejado en su vida, y es difícil predecir quién ganará.