NVIDIA's Vera Rubin redefine la inferencia de IA a través del diseño de sistemas acelerados por hardware

2026-01-28 15:09:52

En CES 2026, el CEO de NVIDIA Jensen Huang subió al escenario con su característico chaqueta de cuero para presentar ocho avances tecnológicos importantes que transforman fundamentalmente la forma en que las empresas construirán su infraestructura de IA. El anuncio señala un cambio estratégico decisivo: a medida que la industria de IA pasa de sistemas enfocados en entrenamiento a despliegues de inferencia a gran escala, el campo de batalla competitivo se ha desplazado de unidades de computación aisladas a arquitecturas integradas a nivel de sistema. Este cambio exige un nuevo enfoque para la programación de GPU acelerada por hardware—la capacidad de orquestar miles de millones de cálculos a través de múltiples chips, redes y sistemas de almacenamiento con una sobrecarga mínima.

El anuncio llegó en un momento crucial en la evolución de la IA. La industria ha avanzado a través de etapas distintas: la IA perceptual reconocía patrones, la IA generativa creaba contenido, la IA agentica razonaba sobre problemas, y ahora la IA física está entrando en el mundo real para realizar tareas. Esta transición requiere prioridades de hardware completamente diferentes. Mientras que el entrenamiento valoraba el máximo rendimiento en aislamiento, la inferencia prioriza el coste por token y la capacidad de respuesta del sistema en despliegues distribuidos geográficamente.

La Supercomputadora Vera Rubin: Seis Chips Personalizados Optimizan la Programación de GPU Acelerada por Hardware

El anuncio principal de NVIDIA es la plataforma Vera Rubin, el intento más ambicioso de la compañía para optimizar cada capa de la pila de inferencia. Nombrada en honor a la astrónoma que descubrió la rotación de las galaxias, Vera Rubin representa un replanteamiento integral de cómo deben trabajar juntos seis chips especializados para eliminar ineficiencias.

La CPU Vera, construida sobre la arquitectura personalizada Olympus de NVIDIA, actúa como el orquestador de datos. Con 88 núcleos y 176 hilos de Multithreading Espacial, coordina la distribución de carga de trabajo hacia la capa de GPU mientras mantiene 1.5TB de memoria del sistema—tres veces más que la generación anterior. La CPU se conecta a las GPU mediante NVLink-C2C a 1.8TB/s, creando un espacio de memoria unificado que permite una programación inteligente de los cálculos en todo el rack.

La GPU Rubin introduce el motor Transformer, un enfoque revolucionario para acelerar las operaciones tensoriales que alimentan los grandes modelos de lenguaje. El rendimiento de inferencia alcanza los 50 PFLOPS usando precisión NVFP4—un aumento de cinco veces respecto a Blackwell. Igualmente importante, la GPU soporta memoria HBM4 con un ancho de banda de 22TB/s, abordando una de las restricciones más críticas de la inferencia: la capacidad de mover datos tan rápido como se consumen. Sin este ancho de banda, las GPU se convierten en cuellos de botella esperando datos en lugar de procesadores que los calculan.

Conectando estos componentes está NVLink 6, el interconector personalizado de NVIDIA, que alcanza 400Gbps por carril y proporciona 3.6TB/s de comunicación de ancho de banda completo entre todas las GPU en un rack. La SuperNIC ConnectX-9 ofrece 1.6Tb/s por GPU hacia la red externa, mientras que la DPU BlueField-4 descarga operaciones de red y almacenamiento—una decisión de diseño crítica que evita que la gestión de la red consuma ciclos de GPU. Esto es programación de GPU acelerada por hardware en su forma más pura: eliminar todas las fuentes de contención para que las GPU puedan mantener una utilización máxima en cargas de trabajo de inferencia.

El resultado, el sistema Vera Rubin NVL72, integra 72 GPU en un solo rack con 2 billones de transistores. El sistema entrega 3.6 EFLOPS de capacidad de inferencia—una mejora de cinco veces respecto a Blackwell en el mismo factor de forma. El tiempo de ensamblaje se ha reducido de dos horas a cinco minutos mediante un diseño modular, sin cables y sin ventiladores, y la refrigeración líquida al 100% reemplaza la refrigeración líquida de aproximadamente el 80% de la generación anterior, mejorando drásticamente la eficiencia térmica. Un solo rack ahora supera el ancho de banda total de Internet, permitiendo operaciones de inferencia que anteriormente requerirían clústeres distribuidos masivos.

Eliminando Cuellos de Botella en Inferencia: Nueva Capa de Almacenamiento y Arquitectura de Red

A medida que los modelos crecen y aumenta la complejidad de la inferencia, ha surgido un nuevo cuello de botella: almacenar y recuperar el contexto. Cuando se despliegan sistemas de IA agentica que mantienen conversaciones de múltiples turnos o realizan razonamiento en múltiples pasos, las ventanas de contexto ahora alcanzan millones de tokens. Recalcular este contexto en cada paso desperdicia valiosos cálculos de GPU e introduce latencias inaceptables. Sin embargo, almacenar el contexto en la memoria de GPU es prohibitivamente costoso cuando las bibliotecas de contexto crecen a escalas de terabytes.

NVIDIA abordó esto con el sistema Spectrum-X Ethernet Co-Packaged Optics, un avance en conmutación de red que logra 102.4 terabits por segundo usando un diseño de dos chips. Al empaquetar directamente componentes ópticos con ASICs de conmutación, la eficiencia energética mejora cinco veces y el tiempo de actividad del sistema aumenta cinco veces en comparación con diseños tradicionales separados. Cada switch maneja 512 puertos a 800Gb/s, permitiendo que los centros de datos muevan datos de contexto entre almacenamiento, GPU y otros nodos con latencias y consumo de energía mínimos.

Trabajando en conjunto está la Plataforma de Almacenamiento de Memoria de Contexto de Inferencia, una nueva capa en la jerarquía de almacenamiento específicamente optimizada para la inferencia de IA. A diferencia del almacenamiento empresarial tradicional diseñado para rendimiento, este sistema trata el contexto como un tipo de dato de primera clase. Conectado a la capa de cómputo mediante BlueField-4 DPU y Spectrum-X Ethernet, permite una mejora de cinco veces en el rendimiento de inferencia al reutilizar el contexto sin cálculos redundantes. Aquí es donde se manifiesta la verdadera visión de la programación de GPU acelerada por hardware: la programación de contexto a través de memoria, almacenamiento y capas de red ocurre automáticamente sin intervención de GPU.

El SuperPOD NVIDIA DGX, construido a partir de ocho sistemas Vera Rubin NVL72, extiende este pensamiento arquitectónico a escala de centro de datos. Usando NVLink 6 para escalado vertical y Spectrum-X Ethernet para escalado horizontal, integrado con la plataforma de almacenamiento de contexto y orquestado por el software NVIDIA Mission Control, el SuperPOD establece un modelo para lo que NVIDIA llama la “fábrica de IA”—una plataforma de inferencia llave en mano que reduce el coste por token de modelos de mezcla de expertos a una décima de la generación anterior, requiriendo solo una cuarta parte de las GPU.

De Modelos de Código Abierto a IA Física: Estrategia del Ecosistema NVIDIA

Mientras NVIDIA empuja los límites del hardware, la compañía también amplía su compromiso con el código abierto. En 2025, NVIDIA fue el mayor contribuyente a modelos, datos y código de código abierto en Hugging Face, lanzando 650 modelos y 250 conjuntos de datos. Esto es estratégico: a medida que aumenta el consumo de tokens y las cargas de trabajo de inferencia se distribuyen entre empresas, la capacidad de personalizar sistemas de IA con modelos de código abierto se vuelve esencial.

NVIDIA presentó “Blueprints”, un marco que permite a los desarrolladores componer sistemas de IA agentica híbridos y multi-modelo en la nube. Estos sistemas enrutan automáticamente tareas—ejecutando modelos privados localmente para operaciones sensibles, llamando a modelos de frontera en la nube para razonamiento avanzado, e invocando herramientas externas como APIs de correo o controladores de robots. La fusión multimodal procesa texto, voz, imágenes y datos de sensores de manera uniforme, capacidades que hace un año eran teóricas pero que ahora son estándar en sistemas de producción.

La expansión de la familia de modelos Nemotron de código abierto incluye nuevos modelos para razonamiento agentico, seguridad y reconocimiento de voz. Más simbólicamente, NVIDIA lanzó un modelo de robótica de código abierto que democratiza el desarrollo de IA incorporada, señalando que la IA física está pasando de laboratorios de investigación a adopción masiva.

La Primera Aplicación Asesina de la IA Física: La Conducción Autónoma Pasa a Producción

NVIDIA declaró que ha llegado el “momento ChatGPT para la IA física”. La IA física difiere fundamentalmente de la IA digital: debe entender leyes físicas, tomar decisiones en entornos del mundo real y ejecutar acciones en tiempo real con consecuencias críticas para la seguridad. Todo lo que se mueva eventualmente será autónomo, cree NVIDIA—desde almacenes y fábricas hasta robótica y vehículos.

La compañía demostró esta convicción lanzando Alpha-Mayo, un modelo de código abierto de 10 mil millones de parámetros que permite la conducción autónoma basada en razonamiento. A diferencia de los enfoques tradicionales de aprendizaje por imitación, Alpha-Mayo descompone los problemas en pasos, razona sobre las posibilidades y selecciona la acción más segura. Cuando un semáforo falla en una intersección concurrida—un caso límite que los datos de entrenamiento nunca capturaron explícitamente—el proceso de razonamiento de Alpha-Mayo ayuda al vehículo a entender las restricciones físicas y tomar decisiones seguras.

El Mercedes-Benz CLA equipado con Alpha-Mayo ya está en producción y acaba de recibir la calificación de seguridad más alta de NCAP. Esto representa una validación significativa: no solo funciona el sistema, sino que los evaluadores de seguridad independientes lo verifican. El sistema se lanzará en el mercado de EE. UU. a finales de 2026 con capacidades progresivas: conducción en autopista sin manos primero, luego autonomía urbana de extremo a extremo. Cada línea de código, cada diseño de chip, cada capa del sistema ha pasado por certificación de seguridad.

NVIDIA lanzó Alpha-Sim, un marco de evaluación de inferencia, y liberó los conjuntos de datos de entrenamiento de código abierto, permitiendo a investigadores y empresas de robótica en todo el mundo desarrollar usando la misma base. Boston Dynamics, Franka Robotics, LG Electronics y otras principales firmas de robótica están construyendo sobre los marcos NVIDIA Isaac y GR00T, mientras que una nueva colaboración con Siemens integrará la IA de NVIDIA, CUDA-X y la simulación Omniverse en las herramientas digitales y de fabricación de Siemens.

La Arquitectura Estratégica: Hacer que la Inferencia Sea Insustituible

La posición estratégica de NVIDIA se ha cristalizado. Por un lado, la compañía abre código de manera agresiva—lanzando cientos de modelos, conjuntos de datos y bibliotecas anualmente, permitiendo que cualquiera construya sobre la tecnología de NVIDIA. Por otro lado, hace que su hardware, arquitectura de red y diseño de sistemas sean cada vez más insustituibles. Esta es la estrategia de ciclo cerrado: ampliar la demanda de inferencia mediante software de código abierto, impulsar el consumo de tokens, crear la necesidad de infraestructura masiva de inferencia y suministrar esa infraestructura con sistemas acelerados por hardware que solo NVIDIA puede construir.

La plataforma Vera Rubin ejemplifica este enfoque. No es simplemente una GPU más rápida—es un rediseño completo de cómo las cargas de trabajo de inferencia se mueven a través de almacenamiento, red y capas de cómputo. Los chips personalizados coordinan este movimiento a nivel de hardware, eliminando la sobrecarga de software que aceptan los sistemas tradicionales. Los competidores que ofrecen componentes individuales más baratos no pueden igualar la eficiencia integrada de un sistema diseñado como un todo.

Este enfoque en el coste total de propiedad mediante ingeniería de sistemas, no solo en rendimiento bruto, refleja la madurez de la infraestructura de IA. La industria ha pasado más allá de la era de los benchmarks y entra en la era de la economía real del cliente. Un operador de centro de datos no se preocupa por FLOPS por dólar—se preocupa por tokens procesados por dólar del coste total operativo. NVIDIA ha optimizado para esa métrica en silicio, interconexión, red, almacenamiento, software y ecosistema de código abierto.

A medida que las cargas de trabajo de inferencia escalan en empresas a nivel global, la infraestructura que sustenta esa escala se convierte en el campo de batalla competitivo. La declaración de NVIDIA aclara que la compañía pretende dominar ese campo de batalla no mediante innovaciones aisladas, sino a través de un sistema completo e insustituible diseñado para una era completamente nueva de computación de IA.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.