¡Al menos 1 billón de dólares en ingresos! Huang Renxun causa sensación en la conferencia GTC, Nvidia retoma el control de la vida y muerte de la IA (con transcripción completa de 20,000 palabras)

MaticHoleFiller

2026-03-23 01:05:28

Artículo | Sección “Observando Silicon Valley” Zheng Jun

El centro SAP de San José, Silicon Valley, estaba casi lleno por completo.

Este estadio, normalmente hogar del equipo de hockey NHL San José Sharks, se convirtió hoy en la “Mecca de la IA” anual. Desarrolladores, ingenieros, compradores empresariales e inversores de 190 países llenaron cada asiento, con la mirada puesta en una figura familiar: ese hombre de mediana edad con chaqueta de cuero.

El CEO de Nvidia, Huang Renxun, subió al escenario y su primera frase fue: “It all starts here.” — Todo comienza aquí. Durante más de dos horas, cumplió con el peso de esa frase. Sonriendo, dijo que hoy aquí parecía el Super Bowl.

Se espera que la nueva arquitectura de chips aceleradores de IA de Nvidia, Blackwell, y el próximo producto Rubin, generen al menos 10 billones de dólares en ingresos para 2027. Esta cifra supera ampliamente la previsión de 500 mil millones de dólares que Huang Renxun dio en octubre de 2025, evidenciando que la ola de inversión en infraestructura de IA sigue expandiéndose rápidamente.

Órdenes por billones: una nueva referencia en la narrativa de demanda

El impacto más directo en los números vino de las órdenes de compra. Huang Renxun estimó que para finales del próximo año, Nvidia superará los 1 billón de dólares en pedidos relacionados con las arquitecturas Blackwell y Vera Rubin, el doble de lo que se esperaba el año pasado.

Nvidia ya había ajustado sus expectativas al alza. El mes pasado, la CFO Colette Kress insinuó en la conferencia de resultados que las ventas de chips superarían las previsiones anteriores, y hoy Huang Renxun concretó esa confianza en cifras específicas.

Este optimismo se basa en que los últimos resultados financieros muestran que los ingresos del centro de datos alcanzaron 62.3 mil millones de dólares en un trimestre, un aumento del 75% interanual; sin embargo, la acción de Nvidia no subió en sincronía, sino que retrocedió aproximadamente un 11% desde su máximo histórico de 207 dólares en octubre pasado. El mercado duda de si Nvidia podrá mantener ese ritmo de crecimiento en 2027, y esa duda limita el potencial alcista de su cotización. La cifra de billones responde directamente a esas preocupaciones infundadas.

Producto estrella: la presentación completa de Vera Rubin

Vera Rubin fue la protagonista indiscutible del discurso, aunque Huang Renxun no la anunció oficialmente hasta una hora y media después. Este sistema ya fue revelado en un evento en Washington a finales del año pasado, y en el CES 2026 de principios de este año se mostraron más detalles. Hoy, por fin, se presentó en su totalidad. Los puntos clave:

Vera Rubin NVL72 es el modelo insignia actual, con 72 GPU conectadas mediante NVLink 6, refrigeradas por líquido, y con un diseño que Huang Renxun destacó especialmente: “Todos los cables han desaparecido” — ahora se usa un sistema modular en bandejas, reduciendo el tiempo de instalación de dos horas a solo 5 minutos. Funciona con agua caliente a 45°C. Huang la llamó “el motor de la era de IA de carga ultra rápida”.

La versión Rubin Ultra extiende la capacidad a 144 GPU en un solo gabinete, usando un nuevo chasis vertical Kyber, con cálculo en la parte frontal y NVLink en la parte trasera. Comparado con la generación Hopper, el rendimiento de inferencia de Vera Rubin puede llegar teóricamente a 7 millones de tokens por segundo, frente a 2 millones en la combinación Hopper x86. Huang la calificó como “el gráfico más importante para el futuro de las fábricas de IA”, y segmentó la inferencia en cuatro niveles de servicio: Free, High, Premium y Ultra, con precios en tokens/segundo, donde “Token es la nueva materia prima”.

El CPU Vera Rubin será vendido como producto independiente, creando una fuente de ingresos propia en el mercado de CPUs. Nvidia estima que esta línea aportará “decenas de miles de millones de dólares” en ingresos. La primera versión ya funciona en la nube Azure de Microsoft, con avances en la tasa de muestreo, en contraste con los problemas de rendimiento inicial en la generación Blackwell.

Adquisición de Groq: integración del LPU

El pasado diciembre, Nvidia adquirió por unos 20 mil millones de dólares los activos clave de Groq, incorporando a su equipo fundador, Jonathan Ross incluido. Hoy, Huang anunció el producto tecnológico de esa compra: Groq 3 LPU (Unidad de Procesamiento de Lenguaje).

El objetivo del Groq 3 es acelerar la inferencia de Vera Rubin, no reemplazar a la GPU. Desde el punto de vista técnico, la inferencia de modelos grandes de lenguaje tiene dos fases: prefill, que es intensiva en cálculo, y decode, que requiere mucho ancho de banda. Las GPU son excelentes en prefill, pero el LPU de Groq, con 22 TB/s de ancho de banda HBM4, está optimizado para decode, siendo aproximadamente 7 veces más rápido que GPUs similares en esa etapa. Ambos trabajan en conjunto mediante una arquitectura de inferencia disgregada: la GPU se encarga del prefill, el LPU del decode, y todo se coordina con el sistema Dynamo de Nvidia.

Para ello, Nvidia lanzó un chasis dedicado, el LPX, que alberga 256 LPUs Groq 3 en un solo gabinete, alineado con el chasis NVL72 de Vera Rubin y conectado mediante Spectrum-X, un sistema de interconexión personalizado. Cada LPU tiene 500MB de memoria en chip, fabricada por Samsung, y se espera que comience a entregarse en el tercer trimestre. Datos oficiales indican que, en conjunto, Vera Rubin NVL72 y Groq 3 LPX pueden ofrecer un rendimiento de 35 veces más tokens por megavatio en comparación con Blackwell.

Antes del lanzamiento, altos ejecutivos señalaron que esta arquitectura permitirá ofrecer inferencias con “miles de tokens por segundo” a niveles de latencia muy bajos, un segmento dominado actualmente por chips especializados como Cerebras y SambaNova.

Nvidia impulsa la era de los agentes IA

Más allá del hardware, Huang dedicó tiempo a la estrategia de software de Nvidia. La tendencia más caliente ahora son los agentes IA (AI Agents), y en particular la plataforma de código abierto OpenClaw, que ha sido un éxito rotundo. Huang la comparó con un sistema operativo: “Es el sistema operativo que controla las computadoras agentes, igual que Windows hizo posible las PCs.” Afirmó que “todas las empresas del mundo necesitan una estrategia OpenClaw”, equiparándola a la adopción de Linux o HTTP/HTML en su momento.

Nvidia lanzó NemoClaw, un stack de software de referencia empresarial de código abierto para OpenClaw, centrado en la seguridad: ayuda a proteger datos sensibles internos durante la implementación de IA agentes, evitando filtraciones en su operación autónoma. Microsoft anunció ese mismo día una colaboración con Nvidia para desarrollar capacidades de protección en tiempo real basadas en Nemotron y NemoClaw.

Además, Nvidia posiciona productos como DGX Spark y DGX Station como plataformas locales para desarrollo y despliegue de IA agentes, extendiendo NemoClaw al edge.

Hoja de ruta: de Feynman a los centros de datos espaciales

En cuanto a hardware, Huang esbozó por primera vez la arquitectura Feynman, prevista para 2028. Incluirá nuevos GPU, un LPU de próxima generación llamado LP40 (en homenaje a Rosalind Franklin), CPUs denominadas Rosa (en honor a la descubridora del ADN), junto con DPU BlueField-5, NIC CX10 y plataformas Kyber con interconexión de cobre y óptica coempaquetada (CPO).

Sorprendentemente, anunció que Nvidia desarrolla una versión espacial de Vera Rubin, llamada Space-1, para desplegar centros de datos en órbita. Reconoce que la radiación en el espacio es un reto clave, pero ya están investigando soluciones. Esto se alinea con las estrategias de SpaceX, Google, Amazon y otros gigantes en infraestructura espacial.

También presentaron el diseño de referencia DSX AI Factory, que junto con Omniverse DSX Blueprint ayuda a planificar, simular y gestionar todo el ciclo de vida de grandes centros de datos IA. Amazon Web Services anunció una expansión de su colaboración con Nvidia, con más de un millón de GPUs Blackwell, Rubin y Groq 3 LPU desplegadas en varias regiones globales este año.

Vehículos autónomos y robots: expansión de socios

El tercer eje del discurso fue la conducción autónoma. Huang anunció que Nvidia Drive AV colaborará con Uber para desplegar flotas autónomas en 28 ciudades de cuatro continentes antes de 2028, comenzando en Los Ángeles y San Francisco en 2027.

Simultáneamente, fabricantes como BYD, Geely, Nissan y Hyundai desarrollan vehículos L4 en la plataforma Drive Hyperion. También, Isuzu y Tier IV trabajan en autobuses autónomos con chips AGX Thor. Huang citó: “El momento ChatGPT de los autos autónomos ya llegó.”

En robótica, Disney presentó Olaf, un robot basado en IA física, que interactuó en escena con Huang. Entrenado en entornos simulados de Nvidia, Olaf puede caminar en Omniverse, demostrando la potencia de Newton y Warp, sus motores físicos y de simulación.

Se espera que en Disneyland haya muchos robots como Olaf, moviéndose libremente. En la conclusión, en lugar de resumir, se proyectó un video que repasa la explosión de poder de cálculo desde CNN hasta OpenClaw, multiplicando por 40 millones la capacidad de IA. La fase de entrenamiento fue clave en los primeros años, pero ahora la inferencia domina el mundo, con arquitecturas como Vera y Blackwell elevando la capacidad y reduciendo costos en un factor de 35.

Construir fábricas de IA que antes tomaban años y carecían de escalabilidad ahora es posible en meses, transformando la energía en ingresos. Los agentes IA ahora actúan de forma autónoma, y herramientas como NeMo Guardrails los mantienen en línea si se desvían.

No es solo cine: coches pensantes y juguetes inteligentes ya están aquí. AlphaMIO domina la conducción automática, y en robótica estamos en la era de GPT. La integración de arquitecturas impulsa la tendencia de inferencia, y cada año se crean nuevas plataformas para satisfacer la demanda creciente de tokens. La comunidad open source lidera la innovación, generando datos sintéticos para entrenar robots y validar leyes de escalamiento. El futuro ya está aquí, y Nvidia lidera esa revolución.

Reacción del mercado y análisis

Durante el evento, las acciones de Nvidia cerraron con un aumento de aproximadamente 1.65%, subiendo de 181 a cerca de 183 dólares, con un volumen de 217 millones de acciones, por encima del promedio diario. La capitalización alcanzó los 4.45 billones de dólares, lo que indica que la conferencia, al menos en el corto plazo, fortaleció la confianza del mercado.

El analista Dan Ives de Wedbush fue uno de los más optimistas, calificando a Huang Renxun como el “padrino de la IA” y considerando esta GTC como un impulso de confianza necesario para los inversores en tecnología. Reafirmó que la revolución IA se acelera, y la previsión de demanda de 10 billones de dólares proviene de múltiples frentes: empresas, gobiernos y startups nativas de IA. Estima que cada dólar invertido en chips Nvidia genera un multiplicador de 8 a 10 en software, ciberseguridad, energía y centros de datos.

Por su parte, C.J. Muse de Cantor Fitzgerald mantuvo su objetivo en 300 dólares y su recomendación de compra, señalando que estamos en un punto crítico para recuperar confianza y que la estrategia de Nvidia como “empresa de infraestructura de IA de sistema completo” se fortalece, con visibilidad clara hacia 2027.

Gene Munster de Deepwater fue más cauteloso, advirtiendo que el verdadero reto no está en los lanzamientos actuales, sino en las preocupaciones a largo plazo sobre la desaceleración en 2027, vinculadas a la posible cercanía del pico en gastos de capital en IA.

En el último año, la burbuja de IA y las inversiones en infraestructura generaron expectativas elevadas, pero hoy Huang Renxun ofrece una visión más amplia y optimista, consolidando a Nvidia como la base de toda esa visión.

¿Burbuja de IA? El hombre de cuero de mediana edad piensa que apenas empieza.

【Texto completo del discurso】

Bienvenidos a GTC. Solo quiero recordarles que esto es una conferencia tecnológica. La fila de personas desde temprano en la mañana muestra cuánto interés hay. En GTC, exploramos tecnología y plataformas. Nvidia tiene tres grandes plataformas: quizás piensen que hablamos principalmente de CUDA X, pero en realidad, el sistema es otra plataforma, y ahora tenemos una nueva llamada IA Factories. Discutiremos todo esto, pero lo más importante es el ecosistema.

Antes de comenzar, quiero agradecer a Sarah Go y Alfred Lin, presentadores del pre-show, y a Gavin Baker de Sequoia Capital, nuestro primer inversor de riesgo. Como primer inversor institucional, tienen una profunda visión tecnológica y un ecosistema amplio. También agradezco a los VIP invitados que elegí y a las empresas patrocinadoras presentes. Nvidia es una plataforma con tecnología, ecosistema y una vasta red. Aquí se reúnen representantes de una industria que vale un billón de dólares, con 450 empresas patrocinadoras, 1000 sesiones técnicas y 2000 ponentes. La conferencia cubre cada capa de la arquitectura de IA de cinco niveles, desde infraestructura básica (tierra, energía, edificios) hasta chips, plataformas y modelos, y finalmente, las aplicaciones que harán despegar toda la industria.

Todo comienza aquí. Este año celebramos 20 años de CUDA. Desde hace dos décadas, dedicamos esfuerzos a esta arquitectura. Una invención revolucionaria que permite escribir código escalar con instrucciones múltiples en un solo hilo, facilitando la programación en comparación con SIMD. Recientemente, añadimos Tiles para facilitar la programación de Tensor Cores y matemáticas básicas de IA. Miles de herramientas, compiladores, frameworks, bibliotecas y decenas de miles de proyectos open source ya están integrados en el ecosistema CUDA. La mayor dificultad ha sido la enorme base instalada.

Hemos pasado 20 años construyendo en todo el mundo millones de GPUs y sistemas que ejecutan CUDA, en todos los proveedores de nube y empresas de computación, en casi todos los sectores. La base instalada de CUDA es el motor que impulsa la aceleración. Esa base atrae a desarrolladores, quienes crean algoritmos revolucionarios en aprendizaje profundo, generando nuevos mercados y ecosistemas, atrayendo más empresas y ampliando aún más la base instalada. Este ciclo de retroalimentación se acelera: las descargas de librerías Nvidia crecen exponencialmente. Este efecto no solo soporta una plataforma de computación que impulsa innovaciones, sino que también extiende la vida útil de la infraestructura.

Con tantas aplicaciones en CUDA, soportamos cada etapa del ciclo de vida de IA y cada plataforma de datos, acelerando desde ciencia hasta ingeniería. La amplitud de aplicaciones hace que, una vez instalada, la GPU tenga una vida útil muy larga. Por eso, incluso arquitecturas de hace seis años, como Ampere, mantienen precios en la nube en alza. La gran base instalada, el efecto de retroalimentación, la amplia comunidad de desarrolladores y las actualizaciones continuas reducen costos y aumentan la eficiencia. La aceleración en cálculo permite mayor velocidad y menor costo, y con la base instalada, las nuevas optimizaciones benefician a millones de GPUs en todo el mundo. La combinación dinámica amplifica la influencia de Nvidia, acelerando el crecimiento y reduciendo costos, que es el valor central de CUDA.

Pero nuestro viaje empezó hace 25 años con GeForce. GeForce fue la campaña de marketing más exitosa, y muchos crecieron con ella. Antes de que pudieran pagar, sus padres ya los hacían clientes de Nvidia, y eventualmente se convirtieron en científicos de la computación y desarrolladores. GeForce creó Nvidia y sembró CUDA. Hace 20 años, inventamos el primer acelerador programable: el pixel shader, para que los aceleradores pudieran ser programables. Cinco años después, nació CUDA. La mayor inversión de la compañía fue promover CUDA en cada PC, usando GeForce. Tras 20 años y 13 generaciones, CUDA está en todas partes. Hace diez años, lanzamos RTX, rediseñando la arquitectura para la era moderna de gráficos por computadora. GeForce llevó CUDA al mundo y ayudó a que muchos pioneros descubrieran que las GPU aceleran el aprendizaje profundo, dando inicio a la explosión de IA. Hace diez años, fusionamos técnicas de sombreado programable y ray tracing en hardware, anticipando que IA transformaría radicalmente los gráficos. Como GeForce llevó IA al mundo, ahora IA transformará los gráficos.

Hoy, mostraré la próxima generación: renderizado neuronal, la fusión de gráficos 3D y IA, que es DLSS 5.0. Combinamos datos estructurados en 3D, mundos virtuales y IA generativa basada en probabilidad. Los datos estructurados, controlados, junto con IA generativa, crean contenidos hermosos y precisos. La integración de datos estructurados y IA generativa impactará en muchas industrias, siendo la base de una IA confiable.

Luego, profundizaremos en datos estructurados. Plataformas como SQL, Spark, Pandas, Velox, Snowflake, Databricks, EMR, Fabric y BigQuery manejan dataframes, que son enormes hojas de cálculo con la verdad única de la empresa. Antes, acelerábamos el procesamiento de datos estructurados para reducir costos y aumentar la frecuencia de actualización. En el futuro, IA usará estos datos a velocidades vertiginosas. Además, existen bases de datos no estructuradas que contienen la mayor parte de la información global: vectores, PDFs, videos, discursos. El 90% de los datos generados anualmente son no estructurados. Hasta ahora, su consulta y búsqueda eran lentas y complicadas por la falta de índices y comprensión.

Ahora, la IA resolverá esto. Mediante percepción multimodal y comprensión, IA podrá leer PDFs, entender su contenido y convertirlos en estructuras buscables y consultables. Para ello, Nvidia creó dos librerías fundamentales: cuDF para datos estructurados y dataframes, y cuVS para vectores y datos no estructurados. Estos serán los principales sistemas en el futuro, integrados en las redes globales de procesamiento de datos.

Hoy, anunciaremos varias colaboraciones importantes. IBM, pionera en SQL, usa cuDF para acelerar WatsonX. Hace 60 años, IBM lanzó System/360, que sentó las bases de la computación moderna. Hoy, Nvidia y IBM usan GPU para acelerar WatsonX.data, redefiniendo el procesamiento de datos en la era IA. Como los sistemas CPU actuales no satisfacen la demanda de acceso rápido a grandes conjuntos de datos, las empresas deben transformarse. Por ejemplo, Nestlé realiza miles de decisiones diarias en la cadena de suministro, pero en CPU solo puede actualizar datos unas pocas veces al día. Con Nvidia GPU y WatsonX acelerado, la velocidad se quintuplica y el costo se reduce en un 83%.

La computación acelerada en IA ya llegó. No solo en la nube, sino también en local. Dell, líder en sistemas y almacenamiento, integra cuDF y cuVS en su plataforma de datos IA. Google Cloud también acelera Vertex AI y BigQuery. En colaboración con Snapchat, reducimos sus costos en casi un 80%. Al acelerar datos y cálculos, se obtiene velocidad, escala y costos menores. La ley de Moore, que duplicaba el rendimiento cada pocos años, ya no tiene la misma fuerza. La computación acelerada nos permite saltar esa barrera.

Nvidia, como empresa de algoritmos, reduce costos mediante optimización continua, ampliando escala y velocidad. Hemos creado plataformas de aceleración con librerías como RTX, cuDF, cuVS, integradas en la nube y en OEMs. Esta colaboración se repite en Google Cloud, Snapchat y otros. Nos enorgullece nuestro trabajo en frameworks como JAX, XLA y PyTorch, donde somos los únicos con un rendimiento sobresaliente en todos. Clientes como Baseten, CrowdStrike, Puma y Salesforce no solo usan Nvidia, sino que también desarrollan con ella.

Integramos Nvidia en sus productos y los llevamos a la nube. Nuestra relación con los proveedores de nube consiste en atraer clientes. La mayoría de los proveedores colaboran con nosotros porque aportamos aceleración constante. Este año, estamos muy emocionados por llevar OpenAI a AWS, lo que impulsará el consumo en la nube y ampliará la capacidad de cálculo de OpenAI.

En AWS, aceleramos EMR, SageMaker y Bedrock. Nvidia y AWS tienen una integración profunda, siendo nuestro primer socio en la nube. En Azure, instalamos la primera supercomputadora Nvidia A100, base para colaboraciones con OpenAI. Nuestra relación con Azure es larga, apoyando sus servicios y Bing Search, y colaborando en AIFoundry. La expansión global de Azure también es clave. Ofrecemos funciones como computación confidencial (Confidential Computing), que garantiza que los operadores no puedan acceder a datos o modelos. Nvidia fue la primera GPU en ofrecer esto, permitiendo desplegar modelos valiosos en diferentes nubes y regiones de forma segura, gracias a la tecnología de computación confidencial.

En clientes, destacamos a Synopsis, que acelera sus flujos de trabajo en EDA y CAU en Azure. Somos proveedores y clientes de Oracle, y desde que les expliqué la estrategia de IA en la nube, han crecido mucho. Allí, implementamos Quark, Cohere, Fireworks y OpenAI. CoreWeave, la primera nube nativa de IA, ofrece GPU para IA en la era de la aceleración. Tiene una base de clientes sólida y crece rápidamente.

También confiamos en Palantir y Dell. Juntos, creamos la plataforma Palantir Ontology, que puede desplegarse en cualquier país y en zonas aisladas (air-gapped). La IA puede estar en cualquier lugar. Sin nuestra computación confidencial, sistemas end-to-end y toda la pila de aceleración, esto sería imposible. Estas alianzas con proveedores globales muestran nuestra colaboración especial, y agradezco su esfuerzo.

Nvidia es una empresa verticalmente integrada y abierta. La clave es que la aceleración no solo es chips o sistemas, sino aplicaciones. Si solo aceleramos computadoras, es tarea del CPU. Pero el CPU ya no da más. La única forma de lograr grandes mejoras en rendimiento y costos es mediante aceleración en aplicaciones específicas, en cada sector. Por eso, Nvidia desarrolla librerías para diferentes industrias.

Como empresa de computación vertical, debemos entender profundamente las aplicaciones, los sectores y los algoritmos. También, cómo desplegar estos algoritmos en centros de datos, nubes, en local, en edge o en robots. Desde chips hasta sistemas, somos verticalmente integrados. Pero Nvidia también es abierta: combinamos software, librerías y tecnología con socios, para llevar la aceleración a todos. La conferencia GTC refleja esa visión.

Contamos con librerías específicas para sectores clave. En finanzas, por ejemplo, las operaciones algorítmicas pasan de ML tradicional a análisis con supercomputadoras que detectan patrones en datos masivos, en un momento de profunda transformación. En salud, aplicamos IA física y biológica en descubrimiento de fármacos, y desarrollamos agentes IA para atención y diagnóstico.

En industria, estamos construyendo las mayores fábricas de IA del mundo, con muchos fabricantes presentes en esta conferencia. En medios y entretenimiento, la IA en tiempo real soporta traducción, transmisión, streaming y contenido mejorado. En computación cuántica, 35 empresas usan nuestra plataforma Holoscan para sistemas híbridos cuántico-clásicos. En retail y consumo, Nvidia optimiza cadenas de suministro y crea sistemas de compra y atención con agentes IA, en un mercado de 35 billones de dólares.

En robótica, Nvidia lleva una década en el sector, con sistemas básicos y colaboraciones con todos los principales fabricantes. Aquí mostramos 110 robots en la feria. En telecomunicaciones, las torres de radio, base de la infraestructura anterior, se transformarán en plataformas de IA en el edge, con nuestra plataforma Aerial en colaboración con Nokia y T-Mobile.

Todo esto se apoya en nuestra librería de algoritmos CUDA-X, la base de Nvidia como empresa de algoritmos. Gracias a ella, podemos abordar problemas en todos los sectores, con librerías como cuDNN para IA, cuOPT para optimización, cuLitho para litografía, cuDSS para resolución dispersa, Parabricks para genómica, y más de mil librerías CUDA-X que impulsan avances en ciencia e ingeniería. Lo que se ve no es animación artificial, sino simulaciones físicas, modelos IA físicos y robots físicos, todo basado en algoritmos y plataformas de cálculo integradas.

Hoy, surgen muchas startups nativas de IA, como OpenAI y Anthropic. La inversión en ellas alcanzó 150 mil millones de dólares en un año, porque necesitan enorme poder de cálculo y millones de tokens, ya sea generados por ellas mismas o valorizados. Como en PC, internet y móvil, estamos en una nueva plataforma, y nuevas empresas de gran impacto surgirán.

Los hitos de los últimos dos años incluyen: ChatGPT, que inauguró la era de IA generativa, capaz de traducir, crear contenido y comprender. La computación generativa cambió la forma de hacer cálculos, pasando de búsqueda a generación, transformando la arquitectura de la computación. La IA de inferencia, con modelos O1 y O3, ahora puede reflexionar, pensar y verificar, haciendo que la IA generativa sea más confiable y basada en hechos. Esto aumenta el uso de tokens en contexto y en pensamiento, elevando la demanda de cálculo. ClaudeCode, el primer agente inteligente, puede leer archivos, programar, compilar y mejorar automáticamente, revolucionando el software.

Todos en Nvidia usan ClaudeCode, Codex y Cursor en sus tareas diarias. Ya no preguntamos qué hacer, sino que dejamos que la IA cree, ejecute y construya en función del contexto. La IA ha evolucionado de percepción a generación y ahora a inferencia, realizando tareas eficientes. Gracias a que la IA puede producir, la demanda de GPUs Nvidia se disparó en los últimos dos años, y sigue creciendo.

La IA ahora debe pensar, actuar y leer, y para eso necesita inferir y razonar. Cada parte de la IA debe razonar en su proceso de pensamiento, acción y generación de tokens. Ya no estamos en fase de entrenamiento, sino en inferencia, y el punto de inflexión ya llegó. La demanda de cálculo aumentó unas 10,000 veces en los últimos años. La demanda creció 10,000 veces, y el uso, unas 100 veces. La demanda total puede haber crecido un millón de veces, y esa es la experiencia de startups, OpenAI y Anthropic. Con más poder, generan más tokens, y la economía crece, haciendo a la IA más inteligente.

Estamos en ese ciclo virtuoso, y el punto de inflexión en inferencia ya ocurrió. El año pasado, predije que para 2026, los pedidos de Blackwell y Rubin alcanzarían 500 mil millones de dólares. Aunque algunos celebraron récords anuales, ahora digo que para 2027, esa cifra será al menos 1 billón de dólares. La demanda de poder de cálculo será aún mayor.

Hemos trabajado mucho en el último año. 2025 será el año de la inferencia Nvidia. Queremos que Nvidia sea fuerte en entrenamiento, post-entrenamiento y en todas las etapas de IA. La inversión en infraestructura puede extenderse a largo plazo, con sistemas de vida útil larga y costos bajos. Sin duda, Nvidia es la infraestructura de IA más económica del mundo. Todo en 2024 giró en torno a la inferencia, marcando un punto de inflexión. Empresas como Anthropic y Meta con Llama eligieron Nvidia. Los modelos de código abierto están en la vanguardia y en todas partes. Nvidia es la única plataforma que funciona en todos los idiomas y áreas de IA, desde biología y gráficos hasta visión, voz, proteínas, química y robótica. Nuestra arquitectura funciona desde el edge hasta la nube, siendo la más económica y confiable.

Frente a una infraestructura de 1 billón de dólares, hay que asegurar alto rendimiento, bajo costo y larga vida útil. Pueden confiar en Nvidia, en la nube, en local o en cualquier lugar. Hoy, somos una plataforma de cálculo para toda IA, y eso se refleja en nuestro negocio. El 60% de nuestro negocio proviene de los cinco mayores proveedores de nube, algunos para uso interno. Sistemas de recomendación y búsqueda migran a GPUs Nvidia, y colaboramos con grandes laboratorios de IA, con una comunidad nativa que consume rápidamente nuestra potencia. El otro 40% está en edge, nubes regionales, empresas, industria, robots y supercomputación. La amplitud y diversidad hacen a la IA resistente, y ya es una tecnología fundamental y una nueva plataforma de cálculo.

Nuestro trabajo continúa. El año pasado, en Hopper, hicimos una reingeniería radical. Decidimos elevar la arquitectura a un nuevo nivel, creando NVLINK-72, con cambios en fabricación y programación. NVFP4 no solo mejora la precisión, sino que representa un nuevo tipo de TensorCore y unidad de cálculo. Demostramos que se puede inferir sin perder precisión, con mejoras en rendimiento y eficiencia energética, y también para entrenamiento. Con NVLINK-72, NVFP4, Dynamo, TensorRT-LLM y nuevas algoritmos, construimos un superordenador DGX Cloud para optimizar el núcleo y el software. La inferencia, que antes parecía sencilla, es en realidad el mayor desafío y la clave de ingresos. La eficiencia en tokens por vatio es crucial. Cada centro de datos tiene límites de potencia, y la física no permite más de 1 GW en una fábrica. Hay que producir la mayor cantidad de tokens con esa potencia, en la cima de la curva de eficiencia.

La velocidad de inferencia define la respuesta, la interacción. Cuanto más rápido, más tokens en contexto y en pensamiento, más inteligente y productiva es la IA. La IA más inteligente piensa más tiempo, pero reduce el throughput. Desde ahora, todos los CEOs verán su negocio como una fábrica de tokens, y la eficiencia en tokens por vatio será clave. Nvidia tiene el rendimiento más alto del mundo, y aunque Moore prometía 1.5x cada pocos años, logramos 35x.

Cuando dije que Grace Blackwell y NVLINK-72 mejoraron 35 veces en eficiencia, algunos no me creyeron, y algunos analistas pensaron que podía ser hasta 50x. Esto hace que nuestro costo por token sea el más bajo del mundo. Si la arquitectura es mala, incluso gratis no sería barato, porque construir una fábrica de 1 GW cuesta 40 mil millones de dólares. Hay que usar los mejores sistemas para obtener la mejor relación costo-beneficio. Con un diseño extremo, hacemos integración vertical y apertura horizontal, entregando toda la tecnología a los proveedores de inferencia en todo el mundo.

Por ejemplo, plataformas como Fireworks y Together crecen rápidamente, y su eficiencia de producción es clave. Con nuestras actualizaciones, sin cambiar hardware, la velocidad pasó de 700 a casi 5000 tokens por segundo, ¡siete veces más! Los centros de datos que almacenaban archivos ahora son fábricas de tokens limitadas por potencia. La inferencia es la nueva carga de trabajo, y los tokens, la nueva mercancía. La computación es ingreso. Cada proveedor de nube y IA pensará en su fábrica de tokens, y esa inteligencia será impulsada por tokens.

En los últimos diez años, Nvidia lanzó DGX-1, la primera computadora para deep learning, con 8 GPUs Pascal y 170 TFLOPS, conectadas por NVLink. Luego, con Volta, agregamos conmutadores NVLink y 16 GPUs en un solo sistema. Con modelos cada vez mayores, los centros de datos deben ser un solo sistema, y Mellanox se unió a Nvidia. En 2020, DGX A100 SuperPOD combinó escalabilidad vertical y horizontal. Luego, con Hopper, con FP8, redefinimos la supercomputación IA, y con Blackwell, NVLINK-72, logramos 130 TB/s de ancho de banda total.

Hoy, los sistemas de agentes IA necesitan más poder. Vera Rubin impulsa todos los pilares del cálculo, con 3.6 exaflops y 260 TB/s de ancho de banda total. Combinado con Vera CPU, DPU BlueField-4, switches Spectrum-X y aceleradores Groq-3LPX, logra 35 veces más throughput por megavatio en solo 10 años, con siete chips y cinco racks. Este sistema, con 7 chips y 5 racks, multiplica por 40 millones la potencia en una década.

Para la próxima generación, Feynman, con GPU renovados y un nuevo LPU LP40, junto con Rosa CPU y DPU BlueField-5, conectados con CX10 y Kyber, usando cobre y CPO. También, una versión espacial, Vera Rubin Space One, para centros de datos en órbita, enfrentando desafíos de radiación y disipación térmica, con innovación en enfriamiento radiativo.

El ingeniero Peter Steinberger, creador de OpenClaw, anunció que en semanas, OpenClaw se convirtió en el proyecto open source más popular, superando en impacto a Linux en 30 años. Es un sistema revolucionario, y Nvidia apoyará su ecosistema.

OpenClaw es muy fácil de usar: con un comando, crea un agente IA personalizado, y con instrucciones en lenguaje natural, se le puede decir qué hacer. Andrei Karpathy y su equipo publicaron que se puede programar a la IA en sueños, con experimentos automáticos nocturnos.

OpenClaw está transformando industrias. Un ejemplo: un padre de 60 años conectó su dispositivo a OpenClaw, que automatizó toda la producción de cerveza artesanal y creó un sitio de comercio electrónico. En Shenzhen, cientos de comercios usan OpenClaw para vender cangrejos. Nuestros ingenieros también trabajan en la próxima versión de OpenClaw. Incluso ya existe la conferencia OpenClaw (Claw Con).

¿Pero qué es OpenClaw? Es un sistema de agentes conectados y globales, que controla recursos computacionales mediante modelos de lenguaje grandes. Puede acceder a herramientas, archivos, programar tareas, dividir problemas complejos en pasos, crear sub-agentes y comunicarse en cualquier modo, incluso con gestos. Es un sistema operativo, como Windows para PCs. Abre la posibilidad de crear agentes inteligentes en masa, con impacto incalculable. Todas las empresas tecnológicas deben tener una estrategia OpenClaw, como en su momento Linux, HTTP o Kubernetes.

Antes, las TI empresariales almacenaban datos en grandes edificios, con archivos y sistemas estructurados. Esos datos alimentaban herramientas y procesos. Pero con OpenClaw, la era de los agentes IA cambiará todo. Cada empresa será una fábrica de tokens, y cada SaaS, un proveedor de agentes. La influencia de OpenClaw será tan grande como HTML o Linux. La industria de software y tecnología adoptará esta pila open source, y Nvidia apoyará su ecosistema.

Es una revolución en TI, transformando un sector de 2 billones en una industria de valor mucho mayor, con servicios de agentes especializados. En el futuro, cada ingeniero tendrá un presupuesto anual de tokens, y Nvidia puede ofrecerles tokens como parte de su salario, multiplicando su valor. Los tokens serán producidos por fábricas de IA colaborativas. La influencia de HTML y Linux en su momento fue profunda, y ahora OpenClaw será igual o mayor. La creación de un sistema operativo de agentes, que controla recursos y herramientas, será la base de la próxima era.

NVDAX-1,12%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta