La arquitectura de programación de GPU acelerada por hardware de Vera Rubin impulsa la revolución de inferencia de NVIDIA

2026-01-28 19:04:23

En CES 2026, el CEO de NVIDIA Jensen Huang presentó un enfoque fundamentalmente diferente para la infraestructura de IA—uno que prioriza la programación de GPU acelerada por hardware como el mecanismo central para lograr una eficiencia de inferencia sin precedentes. En lugar de optimizar componentes individuales, Vera Rubin representa una revisión completa de cómo se orquesta el cómputo, la memoria, la red y el almacenamiento a nivel de sistema. Este cambio de rendimiento en un solo punto a la aceleración coordinada por hardware marca un punto de inflexión crítico en el diseño de infraestructura de IA.

La industria del cómputo experimenta transformaciones completas cada 10 a 15 años. Pero esta vez, se están produciendo dos revoluciones simultáneas en la plataforma: el cambio de CPUs a GPUs, y la transición de la programación centrada en software a la co-diseño de hardware y software. A medida que los tamaños de los modelos crecen diez veces anualmente, el uso de tokens se expande cinco veces al año, y los costos de tokens caen diez veces por año, la demanda de distribución inteligente de cargas de trabajo se ha vuelto primordial. La programación de GPU acelerada por hardware no es solo una optimización—es una necesidad arquitectónica.

De la optimización de un solo chip a la aceleración de hardware a nivel de sistema

La supercomputadora de IA Vera Rubin introduce seis chips NVIDIA co-diseñados que funcionan como un ecosistema de programación integrado. En lugar de tratar cada componente de forma independiente, Vera Rubin implementa programación acelerada por hardware en toda la pila: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU y Spectrum-X 102.4T CPO.

La Vera CPU—construida sobre 88 núcleos personalizados NVIDIA Olympus—gestiona el movimiento de datos y el procesamiento de agentes con soporte NVLink-C2C de 1.8TB/s para memoria unificada CPU-GPU. Este enfoque co-diseñado significa que las decisiones de programación de GPU ahora pueden tomarse con pleno conocimiento de la localidad de los datos y los costos de movimiento. La GPU Rubin introduce el motor Transformer con un rendimiento de inferencia NVFP4 que alcanza los 50 PFLOPS—una mejora de 5x respecto a Blackwell—mientras que el NVLink 6 Switch logra 3.6TB/s de ancho de banda de interconexión completo mediante programación acelerada por hardware que enruta el tráfico de manera inteligente según patrones computacionales.

El sistema Vera Rubin NVL72 integra todos estos componentes en un solo rack con 2 billones de transistores, entregando 3.6 EFLOPS de rendimiento en inferencia. Lo que hace posible esto no es solo la capacidad de los componentes, sino la capa de programación acelerada por hardware que coordina patrones de cómputo, interconexión y acceso a memoria a través de 54TB de memoria LPDDR5X y 20.7TB de memoria HBM4. El sistema logra un ancho de banda total de escalado vertical de 260TB/s—superando el ancho de banda total de internet del planeta—mediante una aceleración inteligente de decisiones de programación.

El diseño modular, sin cables, permite una ensambladura 18 veces más rápida que las generaciones anteriores, mientras que la bandeja NVLink Switch implementa mantenimiento sin tiempo de inactividad mediante tolerancia a fallos acelerada por hardware. El motor RAS (Confiabilidad, Disponibilidad y Mantenibilidad) de segunda generación permite verificar el estado operativo sin interrumpir las cargas de trabajo—un beneficio directo de la aceleración por hardware en la línea de programación.

Seis chips co-diseñados: programación acelerada por hardware en CPU, GPU, red y almacenamiento

La estrategia de NVIDIA abandona el enfoque tradicional de optimizar componentes aislados. En cambio, cada chip se diseña con la programación de GPU y la coordinación de cargas de trabajo en mente. El DPU BlueField-4, equipado con un CPU Grace de 64 núcleos y un SuperNIC ConnectX-9, descarga cálculos de red y almacenamiento mientras ofrece 6x el rendimiento de cómputo de su predecesor—no mediante velocidades de reloj más altas, sino mediante aceleración por hardware de decisiones de programación para transacciones de red y almacenamiento.

El SuperNIC ConnectX-9 proporciona 1.6Tb/s de ancho de banda por GPU con un camino de datos totalmente definido por software, programable y acelerado. Esta programabilidad es esencial para la programación dinámica de GPU: a medida que cambian las cargas de trabajo, la red puede reconfigurarse en tiempo real sin intervención de la CPU. El sistema de conmutación óptica Ethernet Spectrum-X, que emplea tecnología SerDes de 200Gbps con 102.4Tb/s por ASIC, logra 5x mejor eficiencia energética y 10x mayor fiabilidad mediante programación acelerada por hardware de paquetes y enrutamiento.

Lo que surge de estos seis chips coordinados no es solo rendimiento—es previsibilidad. La programación acelerada por hardware de GPU elimina la varianza que afectaba a generaciones anteriores, asegurando que la latencia de inferencia se mantenga constante incluso bajo carga.

Almacenamiento de contexto de inferencia: repensando la programación de memoria acelerada por hardware

A medida que la IA evoluciona de chatbots a sistemas agenticos, las ventanas de contexto se han expandido a millones de tokens. El cuello de botella ha cambiado del cómputo bruto al almacenamiento y recuperación de contexto. La nueva Plataforma de Almacenamiento de Memoria de Contexto de Inferencia aborda esto mediante un enfoque novedoso de programación acelerada por hardware de la jerarquía de memoria.

Este nivel de almacenamiento se sitúa entre la GPU y el almacenamiento tradicional, acelerado por BlueField-4 y Spectrum-X Ethernet mediante programación colaborativa de contexto. En lugar de tratar la memoria y el almacenamiento como dominios separados, la plataforma usa aceleración por hardware para mover de manera inteligente los datos de contexto según patrones de acceso y requisitos de latencia. El resultado: una mejora de 5x en rendimiento de inferencia y 5x en eficiencia energética para aplicaciones como diálogos multironda, generación aumentada por recuperación (RAG) y razonamiento agentico en múltiples pasos.

La clave: recalcular las cachés clave-valor en cada paso desperdicia ciclos de GPU e introduce latencia. Pero mientras la memoria GPU es rápida y escasa, y el almacenamiento tradicional es demasiado lento para latencias interactivas, una capa de almacenamiento acelerada por hardware optimizada específicamente para inferencia puede cerrar esa brecha. NVIDIA está colaborando con proveedores de almacenamiento para integrar esta plataforma en despliegues Vera Rubin, permitiendo a los clientes escalar de manera más eficiente los pools de almacenamiento y evitar cálculos redundantes de cachés clave-valor.

En comparación con Blackwell, la plataforma Rubin reduce el costo por token para modelos grandes de mezcla de expertos (MoE) a 1/10—una mejora de diez veces impulsada principalmente por la programación acelerada por hardware en los dominios de cómputo, memoria y almacenamiento. Al entrenar el mismo modelo MoE, Rubin requiere solo 1/4 de las GPUs, demostrando los retornos compuestos del hardware a nivel de sistema.

DGX SuperPOD: escalando la programación acelerada por hardware en múltiples racks

A nivel de pod, el DGX SuperPOD emplea ocho sistemas Vera Rubin NVL72, usando NVLink 6 para extensión de red vertical y Spectrum-X Ethernet para escalado horizontal. Todo el sistema es gestionado por el software NVIDIA Mission Control, que implementa programación acelerada por hardware a nivel global en toda la infraestructura del pod. Esto representa un cambio fundamental: las decisiones de programación ya no son locales a cada rack, sino que se coordinan en todo el centro de datos.

El DGX SuperPOD funciona como un plano de referencia llave en mano para despliegues de fábricas de IA a gran escala. Al tratar el pod como una única entidad de cómputo unificada, la aceleración de hardware a nivel de sistema de NVIDIA permite a los clientes completar tareas de entrenamiento e inferencia con menos GPUs totales que antes. Más de 80 socios MGX están listos para soportar despliegues Vera Rubin NVL72 en entornos de nube a hiperescala, con Microsoft y otros proveedores líderes en la fase de despliegue.

Modelos de código abierto y co-optimización hardware-software

El ecosistema de código abierto en expansión de NVIDIA—con 650 modelos y 250 conjuntos de datos lanzados en 2025—refleja una estrategia complementaria. Mientras la compañía abre agresivamente el software, también hace que su hardware, interconexiones y programación a nivel de sistema sean cada vez más irremplazables.

El nuevo marco “Blueprints” permite a los desarrolladores construir sistemas agenticos híbridos y multiconjunto de modelos en la nube. Estos blueprints determinan automáticamente si las tareas deben ejecutarse en modelos privados locales o en modelos de frontera en la nube, en función de la intención del usuario—otra forma de programación inteligente de hardware y software. El sistema integra sin problemas texto, voz, imágenes y señales de sensores robóticos mediante fusión multimodal, con decisiones de programación tomadas a nivel de hardware para minimizar latencia y consumo energético.

Las adiciones a la familia de modelos de código abierto Nemotron incluyen modelos RAG agenticos, de seguridad y de voz, junto con nuevas suites de modelos para robótica y sistemas autónomos. Esta amplitud asegura que desarrolladores en diferentes industrias puedan construir aplicaciones optimizadas para las capacidades de programación acelerada por hardware de Vera Rubin.

IA física: la aceleración por hardware encuentra la inteligencia encarnada

NVIDIA declara que “el momento ChatGPT para la IA física ha llegado.” La IA física requiere tres sustratos computacionales: computadoras de entrenamiento (sistemas DGX) para construir modelos, computadoras de inferencia (integradas en vehículos y robots) para ejecutar decisiones en tiempo real, y computadoras de simulación (Omniverse) para generar datos sintéticos de entrenamiento. El Modelo de Fondo del Cosmos World alinea lenguaje, imágenes, datos 3D y leyes físicas—creando una línea de producción de entrenamiento unificada donde la programación acelerada por hardware optimiza el flujo de datos en los tres entornos.

El conjunto de modelos de código abierto Alpha-Mayo permite que vehículos autónomos pasen de respuestas reactivas a decisiones basadas en razonamiento. Con 10 mil millones de parámetros, Alpha-Mayo es lo suficientemente liviano para ejecutarse en procesadores de borde de vehículos, pero lo suficientemente sofisticado para manejar casos extremos como semáforos fallidos o peligros imprevistos en la carretera. El modelo recibe entradas multimodales—texto, datos de cámaras de vista circundante, historial del vehículo y señales de navegación—y produce tanto trayectorias de conducción como explicaciones de razonamiento.

Mercedes-Benz ha integrado Alpha-Mayo en el nuevo CLA, que recientemente obtuvo la máxima calificación de seguridad de NCAP. El vehículo ya está en producción con capacidades Level 2++, con mejoras que incluyen conducción en autopista sin manos y navegación autónoma de extremo a extremo en entornos urbanos, que se lanzarán a finales de 2026. Cada componente del sistema ha pasado certificación de seguridad, y la programación acelerada por hardware garantiza un comportamiento determinista y predecible, fundamental para la seguridad de vehículos autónomos.

NVIDIA anunció colaboraciones con principales empresas de robótica—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs y Logic Robotics—todas construyendo sistemas sobre NVIDIA Isaac y GR00T. Siemens anunció una colaboración para integrar NVIDIA CUDA-X, modelos de IA y Omniverse en sus plataformas EDA, CAE y de gemelos digitales, extendiendo la programación acelerada por hardware de los centros de datos a la continuidad del diseño y la fabricación.

Alpha-Sim, un marco de evaluación de modelos de inferencia de código abierto, permite a los desarrolladores ajustar Alpha-Mayo con datos propietarios o generar datos sintéticos de entrenamiento usando Cosmos. Los investigadores pueden probar y validar aplicaciones de conducción autónoma con combinaciones de datos reales y sintéticos—garantizando que la inferencia acelerada por hardware en vehículos refleje condiciones de carretera diversas y casos extremos.

La ventaja a nivel de sistema: por qué importa la programación acelerada por hardware

A medida que la infraestructura de IA pasa de centrarse en entrenamiento a centrarse en inferencia, la economía de la IA ha cambiado radicalmente. La competencia en plataformas ya no se basa solo en métricas individuales, sino en la evaluación de sistemas completos. La apuesta de NVIDIA es clara: la compañía que mejor orqueste el cómputo, la memoria, la red y el almacenamiento mediante programación acelerada por hardware inteligente dominará la economía de la inferencia.

Vera Rubin ejemplifica este principio. Al co-diseñar seis chips con una arquitectura de programación unificada, NVIDIA logra mejoras tanto en rendimiento como en costo simultáneamente. La capacidad de entrenamiento aumenta mientras los costos por token de inferencia caen a 1/10 de los niveles anteriores. El sistema opera con menor consumo energético gracias a la programación optimizada por hardware, mantiene mayor tiempo de actividad mediante tolerancia a fallos acelerada, y escala de manera más eficiente porque las decisiones de programación consideran toda la topología.

La estrategia de NVIDIA combina contribuciones abiertas agresivas—ampliando el ecosistema de desarrolladores y reduciendo barreras a la adopción—con hardware cada vez más integrado e irremplazable. A medida que la demanda de tokens y cargas de trabajo de inferencia crece, su arquitectura de programación acelerada por hardware se convierte en la plataforma estándar sobre la cual toda la industria construye. Esta estrategia de ciclo cerrado—expansión de demanda, crecimiento en consumo de tokens, escalado de inferencia y provisión de infraestructura rentable—construye un foso cada vez más defensible.

El cambio hacia la IA física amplifica esta ventaja. Vehículos autónomos, robots y sistemas industriales no solo demandan potencia computacional, sino decisiones deterministas, de baja latencia. La programación acelerada por GPU ofrece exactamente eso: inferencia predecible, eficiente y segura en el borde. A medida que todo lo que puede moverse se vuelve autónomo, el valor del sistema a nivel de hardware de Vera Rubin se extiende desde los centros de datos hasta el mundo físico mismo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.