Jensen Huang crea la “Economía de Tokens” NVIDIA abraza la era de los agentes inteligentes

El 17 de marzo, de madrugada, se inauguró la GTC de NVIDIA, aclamada como el “Super Bowl” de la IA y la “CNY” (Nochevieja) de la IA. El “maestro de la IA”, el fundador y CEO de NVIDIA, Jensen Huang, volvió a ponerse en el centro del escenario con una tormenta tecnológica que volvió a actualizar los límites físicos.

NVIDIA anunció que Vera Rubin (la arquitectura de chip más reciente) ya cuenta con siete chips nuevos, que actualmente están entrando en producción a gran escala. La plataforma Vera Rubin está abriendo una nueva era del Agentic AI (IA agentica), construyendo la mayor “fábrica de IA” del mundo.

Concretamente, estos productos de chips incluyen: NVIDIA Vera CPU (NVIDIA ya se ha adentrado en las CPUs para servidores), NVIDIA Rubin GPU (producto estrella en GPU), NVIDIA NVLink 6 (chip conmutador NVLink de sexta generación, interconexión interna del chip), NVIDIA ConnectX-9 SuperNIC (SuperNIC, tarjeta de red), NVIDIA BlueField-4 DPU (chip de almacenamiento), NVIDIA Spectrum-6 (chip conmutador Ethernet, compatible con la tecnología CPO) y la nueva NVIDIA Groq 3 LPU integrada (el primer chip tras la adquisición de Groq).

Se puede ver que, en la familia de chips, no solo hay los productos de CPU y GPU que todos conocen de forma habitual, sino también LPU provenientes de Groq, además de productos integrales como chips de almacenamiento y chips de conmutación. Estos chips pueden combinarse en 5 racks para operar en centros de datos.

“Vera Rubin es un salto generacional: siete chips disruptivos, cinco racks y una supercomputadora gigante—aportan potencia a cada etapa de la IA”, dijo Jensen Huang. “Con el lanzamiento de Vera Rubin, el punto de inflexión del Agentic AI ya ha llegado y dará inicio a la mayor construcción de infraestructura de la historia”.

Durante la presentación, Jensen Huang también pronosticó que, para finales de 2027, los ingresos de los chips de IA de Blackwell y Rubin alcanzarán 1 billón de dólares. En comparación con el pronóstico de ventas de 500.000 millones de dólares de octubre del año pasado, ya se han duplicado.

Esta conferencia de lanzamiento puede calificarse de “sin precedentes”. No solo se trata de GPU, ni únicamente de una actualización tecnológica concreta. Jensen Huang volvió a subrayar la economía de “Token” y aplicó la teoría del “pastel de cinco capas” de la IA.

Una tendencia es que los gigantes están reuniendo continuamente capacidades, subsanando sus carencias y extendiendo el alcance hacia arriba y hacia abajo de la cadena de valor, formando barreras aún más fuertes. La etapa de competir a solas en chips, rendimiento, etc., ya quedó atrás: ahora se desarrolla una competencia intensa y de alcance integral a nivel de sistemas.

Revolución total de Vera Rubin: de un solo chip a la era a nivel de sistema

Como relevo entre generaciones de Blackwell, NVIDIA planea producir en masa la arquitectura Rubin (R100) en la segunda mitad de 2026. En la base del núcleo, esta arquitectura cambia completamente al proceso de TSMC de 3 nm (N3P). Su distintiva Vera CPU (basada en la arquitectura autodesarrollada Olympus de 88 núcleos) y la Rubin GPU logran una integración en el mismo encapsulado con significado físico mediante la tecnología NVLink-C2C de 1,8 TB/s.

Este diseño de acoplamiento estrecho “sin PCIe” hace que la capacidad de cómputo ya no esté limitada por los enlaces tradicionales. En precisión NVFP4, el cómputo de inferencia en una sola GPU aumenta a 50 PFlops y el cómputo de entrenamiento alcanza 35 PFlops. Su eficiencia energética en inferencia a gran escala mejora en hasta 5 veces frente a Blackwell.

En términos de escenarios de aplicación, Rubin es el corazón digital de una fábrica para “IA agentica” (Agentic AI) y para inferencia de contextos largos. Introduce Transformer Engine 3.0 y el plataforma de almacenamiento Inference Context Memory, y mediante el offload de la gestión de almacenamiento con BlueField-4 DPU reduce la carga, permitiendo que los agentes de IA manejen relaciones de contexto de decenas de miles de tokens, realicen razonamiento lógico en múltiples pasos y decisiones en tiempo real. La plataforma incluye una red Spectrum-X Ethernet Photonics compatible con tecnología de silicio-fotónica (CPO); el ancho de banda total de interconexión interna del rack monounidad NVL72 alcanza 260 TB/s, equivalente a varias veces la suma del ancho de banda de cruce de fronteras de Internet global.

NVIDIA también lanzó racks de Vera CPU. Están construidos sobre la infraestructura de alta densidad de refrigeración líquida basada en NVIDIA MGX, e integran 256 Vera CPU para proporcionar capacidad escalable y eficiente en energía, además de contar con un rendimiento de un solo hilo de nivel mundial. Junto con los racks de computación con GPU, proporcionan la base de CPU para Agentic AI y aprendizaje por refuerzo a gran escala. La eficiencia de Vera es el doble de la de las CPU tradicionales, y la velocidad mejora en 50%.

Actualmente, los clientes que colaboran con NVIDIA para desplegar Vera CPU incluyen Alibaba, ByteDance, Meta y Oracle Cloud Infrastructure, además de CoreWeave, Lambda, Nebius y Nscale. Vera ya está en producción a plena capacidad y suministrará en la segunda mitad de este año.

Los centros de datos tradicionales y la infraestructura de IA se enfrentan a nuevas transformaciones. Jensen Huang dijo: “En la era de la IA, los tokens inteligentes son la nueva moneda, y las fábricas de IA son la infraestructura que genera esos tokens. A través del diseño de referencia Vera Rubin DSX AI Factory y el Omniverse DSX Blueprint (plano de gemelo digital), estamos proporcionando la base para construir fábricas de IA con la mayor productividad del mundo, acelerando el momento de ingresos inicial y maximizando la escala y la eficiencia energética”.

Chip de inferencia Groq LPU: construir un imperio híbrido de cómputo junto con GPU

Ahora, veamos el chip Groq tan esperado.

A finales de 2025, el chip Groq LPU (Language Processing Unit) de NVIDIA, con licencia estratégica de 20.000 millones de dólares e integración profunda, es como un “avión de intercepción supersónico” diseñado para cazar con precisión la latencia y abrir la era de la interacción en tiempo real.

NVIDIA señaló que el lanzamiento de Groq 3 LPX (rack) marca un hito para la computación acelerada. El rack LPX incluye 256 procesadores LPU, con 128 GB de SRAM en el chip y un ancho de banda de expansión de 640 TB/s. Cuando se despliega junto con Rubin NVL72, la GPU Rubin y la LPU mejoran la velocidad de decodificación haciendo cómputo conjunto de cada capa del modelo de IA, proporcionando cómputo para cada token de salida.

Al mismo tiempo, el LPX adopta un diseño completamente de refrigeración líquida y se construye sobre la infraestructura MGX, integrándose sin fisuras en la próxima fábrica de IA Vera Rubin y se entregará en la segunda mitad de este año.

Entrando en la era de inferencia, NVIDIA, más allá de la GPU, fusionó una nueva arquitectura que mejora de forma significativa la eficiencia.

A nivel de arquitectura técnica, la Groq LPU abandona el diseño “especulativo” de hardware típico de las GPU tradicional—como la gestión compleja de caché, la predicción de ramificaciones y el reordenamiento de instrucciones—y en su lugar adopta una arquitectura de canalización determinista. Este diseño separa por completo la complejidad del hardware hasta el nivel del compilador, haciendo que los datos fluyan dentro del chip como una cinta transportadora de precisión, sin ninguna sacudida incontrolable (Jitter).

En escenarios de uso reales, los racks LPX respaldados por la tecnología de NVIDIA se están convirtiendo en el único salvavidas para la “IA agentica” (Agentic AI) y la “interacción de voz en tiempo real”. En sistemas de asistencia a la conducción autónoma o robots de trading de alta frecuencia, cualquier oscilación de cómputo a nivel de milisegundos puede causar que falle la toma de decisiones. La capacidad de cómputo determinista de la LPU garantiza que el tiempo de ejecución de las tareas sea siempre constante.

Para cadenas de agentes complejas que requieren razonamiento de múltiples pasos e incluso involucrar llamadas a cientos de modelos, la LPU puede reducir el “pensamiento encadenado” que originalmente llevaba varios minutos a solo unos segundos, permitiendo que la IA se comporte como los humanos para mantener conversaciones en tiempo real naturales y fluidas, y realizar colaboración. Para soportar este nuevo paradigma de cómputo, NVIDIA integra las unidades de LPU sin problemas en su enorme ecosistema CUDA mediante la tecnología NVFusion, y mediante una arquitectura desacoplada (disaggregated) programa rápidamente los pesos entrenados desde la GPU hacia el arreglo de inferencia de LPU.

Con esta capacidad, NVIDIA separa entrenamiento e inferencia, construyendo un imperio híbrido de cómputo: las GPU se encargan de entrenar modelos de miles de millones de parámetros y de procesar pretexto de textos largos en la retaguardia, mientras que el arreglo de LPU en la línea delantera, con una relación de eficiencia energética 10 veces superior a la de los oponentes y respuesta ultrarrápida, domina el mercado de inferencia en tiempo real a escala de billones de parámetros. Con ello se declara formalmente la llegada de la era de “inferencia instantánea”.

El “cangrejo” versión NVIDIA ya está aquí: abrazar la era de los agentes

Al mismo tiempo, NVIDIA anunció una serie de avances importantes alrededor de agentes de IA (Agent), modelos abiertos y aplicaciones entre industrias. El lanzamiento que más interesa a los desarrolladores es el stack de software NemoClaw para la comunidad OpenClaw. Recientemente, el proyecto open source OpenClaw se volvió rápidamente popular en la comunidad de desarrolladores, y muchos profesionales de la industria lo ven como un prototipo de lo que sería un “sistema operativo personal de IA”.

Jensen Huang también valoró altamente OpenClaw. “OpenClaw abre el siguiente frente de la IA para todos y se ha convertido en el proyecto open source con mayor crecimiento de la historia”, dijo Jensen Huang. “A diferencia de las aplicaciones tradicionales de IA, el objetivo de OpenClaw es permitir que los agentes de IA funcionen de forma continua como si fueran aplicaciones: que puedan planificar tareas por sí mismos, llamar herramientas y completar flujos de trabajo complejos”.

Bajo este marco, NemoClaw ofrece un conjunto completo de capacidades de software base, de modo que los desarrolladores puedan instalar el modelo NVIDIA Nemotron y el entorno de ejecución OpenShell recién lanzado mediante un solo comando, y añadir a los agentes de IA capacidades de control de seguridad y privacidad. Gracias al entorno de sandbox de aislamiento provisto por OpenShell, cuando los agentes de IA acceden a herramientas y datos pueden seguir políticas de seguridad y reglas de privacidad establecidas, garantizando la seguridad de los datos mientras se mejora la eficiencia.

NemoClaw también admite llamadas mixtas de modelos locales y modelos en la nube. Los desarrolladores pueden ejecutar el modelo Nemotron en dispositivos dedicados del usuario, y al mismo tiempo acceder a los modelos de vanguardia en la nube mediante rutas de privacidad, obteniendo así mayor capacidad de cómputo mientras protegen la privacidad de los datos. NVIDIA afirma que NemoClaw puede ejecutarse en múltiples plataformas de cómputo dedicadas, incluyendo PCs y portátiles con tarjetas GeForce RTX, estaciones de trabajo RTX PRO, y los sistemas DGX Station y DGX Spark, proporcionando potencia de cómputo estable para agentes de IA que funcionen todo el día y con cualquier clima.

Mientras impulsa el desarrollo de la plataforma de agentes de IA, NVIDIA también acelera la construcción del ecosistema de modelos abiertos. En esta conferencia, NVIDIA anunció la creación de Nemotron Coalition (la alianza Nemotron), que une a múltiples laboratorios líderes de IA y organizaciones de desarrollo de modelos en todo el mundo para impulsar conjuntamente el desarrollo de modelos de frontera abiertos.

Además de la cooperación a nivel de ecosistema, NVIDIA también amplía líneas de productos de modelos abiertos para apoyar el desarrollo de diferentes campos como agentes de IA, inteligencia física y ciencia médica e investigación. Entre ellos, los modelos de la serie NVIDIA Nemotron 3 refuerzan aún más la capacidad de comprensión multimodal, y lanzan varias versiones como Ultra, Omni y VoiceChat. Estos modelos pueden manejar simultáneamente información de lenguaje, visión y voz, permitiendo que los agentes de IA no solo mantengan conversaciones naturales, sino que también completen tareas de razonamiento complejas y extraigan información clave de múltiples fuentes de datos como videos y documentos.

Más allá de los agentes de IA en el mundo digital, NVIDIA también está impulsando la inteligencia artificial hacia el mundo real. Los nuevos modelos lanzados en esta ocasión incluyen varios modelos base para robots y sistemas de conducción autónoma. Por ejemplo, NVIDIA Isaac GR00T N1.7 es un modelo de lenguaje con visión para robots humanoides, capaz de permitir que el robot realice percepción, razonamiento y toma de decisiones de acción en entornos reales.

NVIDIA Alpamayo 1.5, por su parte, está orientado al escenario de conducción autónoma. Mediante capacidades como indicaciones de navegación, soporte para múltiples cámaras y parámetros configurables de cámara, mejora la capacidad de razonamiento del vehículo. Mientras tanto, el próximo NVIDIA Cosmos 3 se describe como el primer modelo base unificado de “generación del mundo, razonamiento físico y simulación de acción”. Se espera que ayude a robots y sistemas de conducción autónoma a completar entrenamiento y decisiones en entornos complejos.

Desde la plataforma de agentes de IA, pasando por el ecosistema de modelos abiertos, hasta aplicaciones como robots, conducción autónoma y ciencias de la vida, NVIDIA está construyendo gradualmente un sistema tecnológico de IA que abarca el mundo digital y el mundo físico. A medida que más desarrolladores y empresas se unan al ecosistema de modelos abiertos y agentes de IA, también se espera que este sistema impulse aún más la innovación y la implementación de la inteligencia artificial a nivel global.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado