Conversación con el vicepresidente de negocios de Nvidia: se acerca el "momento ChatGPT" de los robots

Puede que entender a Nvidia hoy sea más difícil que nunca, pero sigue siendo una empresa que marca el rumbo del desarrollo en el campo de la IA, y vale la pena explorar cómo dibuja el futuro de la IA.

Las señales de expansión de Nvidia son cada vez más evidentes. En esta edición de GTC, Nvidia presentó productos que abarcan aceleradores para centros de datos, racks, productos de red y varios modelos de código abierto. Palabras clave como CUDA, GPU, LPU (unidad de procesamiento de lenguaje), fábrica de IA, robots, conducción autónoma y modelos de código abierto se mencionaron con frecuencia en el discurso del CEO Jensen Huang. Esta compañía, conocida por sus GPU, ahora parece más adecuada al definirse como un proveedor que cubre múltiples aspectos de la infraestructura de IA o fábricas de IA.

Incluso en el segmento de aceleradores para centros de datos, la variedad de productos de Nvidia ha crecido. Además de la plataforma Rubin con GPU, también se incorpora una LPU. Aunque la LPU, originalmente circuitos integrados específicos (ASIC), y las GPU de uso general pertenecen a diferentes categorías, tras la adquisición de la licencia de Groq, Nvidia ha comenzado a combinar ambos tipos de chips.

En un negocio que, fuera de los clientes principales como grandes proveedores de la nube, representa un 40% del total, Nvidia también ha lanzado nuevas líneas. La conducción autónoma y los robots en la IA física se han convertido en dos focos importantes. Para desplegar IA física, Nvidia no solo desarrolla hardware, sino también plataformas de conducción autónoma y modelos.

Comprender a Nvidia hoy puede ser más complejo que antes, pero sigue siendo una cuestión que vale la pena explorar. Durante la conferencia GTC, el periodista de First Financial conversó con Ian Buck, vicepresidente de computación de alto rendimiento y a gran escala, y Rev Lebaredian, vicepresidente de Omniverse y tecnologías de simulación, para entender las ideas y consideraciones detrás de algunos productos, discutir el fenómeno de la heterogeneidad en los chips, la estrategia de Nvidia para la IA física y por qué se acerca el “momento ChatGPT” en los robots.

Por qué las GPU siguen dominando

Basándose en la tecnología de Groq, Nvidia lanzó en GTC los chips LPU Groq 3 y Groq 3 LPX para racks. Según se informó, el Groq 3 LPX, utilizado junto con CPU y GPU Rubin, puede aumentar en 35 veces el rendimiento de inferencia por megavatio. Este chip se integrará en la próxima generación de la fábrica de IA Vera Rubin en la segunda mitad del año.

La incorporación del Groq 3 significa que las GPU ya no son la única forma de aceleración en los centros de datos de Nvidia. La discusión sobre cómo la línea de GPU enfrenta los desafíos de los ASIC ha sido constante. La adquisición de la licencia de Groq, junto con la incorporación de su fundador Jonathan Ross, el presidente Sunny Madra y otros miembros clave, se interpretan como una estrategia para afrontar los retos del mercado. La inferencia de baja latencia es una característica distintiva de la LPU de Groq. ¿Qué busca Nvidia al incluir la LPU en su portafolio?

Según Huang, cada token de diferentes modelos tiene diferencias, y para las principales demandas actuales de generación de tokens, Rubin sigue siendo un soporte importante, pero surgen nuevos mercados segmentados. A medida que los modelos crecen en tamaño y el contexto se extiende, la velocidad de inferencia debe ser muy rápida. La combinación de nuevos chips permite satisfacer diversas necesidades de cálculo.

Ian Buck explicó que la Groq 3 LPU puede considerarse como un “paquete mejorado” de Rubin. La LPU cuenta con una memoria SRAM sorprendentemente rápida para cálculos en punto flotante. Sin embargo, tiene limitaciones: si se usa solo la LPU para ejecutar modelos de billones de parámetros, se necesitarían decenas de racks, lo que dificulta la escalabilidad, es costoso y la infraestructura sería ineficiente. Pero si se combina en un rack LPX, permitiendo que la LPU y la rack Rubin trabajen en conjunto, se aprovechan las ventajas de ambos chips, logrando que todos los cálculos de atención se realicen en la GPU y las operaciones matriciales de los modelos expertos en la LPU.

“Para la mayoría de los chatbots o sistemas de recomendación actuales, la mayor parte del mercado de IA seguirá siendo atendido por Rubin, y la LPU no los reemplazará. Pero para la próxima generación de cargas de trabajo inteligentes, con modelos de trillones de parámetros, decenas de miles de tokens en contexto y velocidades de miles de tokens por segundo, la integración de ambos chips será posible”, afirmó Buck.

No solo Nvidia está experimentando con diferentes chips en centros de datos. AMD, otro fabricante de GPU, en febrero firmó una colaboración con Meta para diseñar chips semi personalizables. A principios de este mes, Zhenfeng Su explicó que la infraestructura de IA se ha vuelto más compleja, con múltiples cargas de trabajo, ya sea entrenamiento o inferencia, modelos grandes o pequeños, que requieren diferentes tipos de cálculo. “En la próxima etapa de la infraestructura de IA, no existe un solo chip que pueda hacer todo de la mejor manera; estamos en un mundo heterogéneo. También hay que considerar el costo por vatio, buscando eficiencia en la ejecución de cargas de trabajo de IA a gran escala. Sin duda, los ASIC seguirán teniendo un papel en las demandas de cálculo”, afirmó Su, en línea con las ideas de Huang.

¿Significa esto que los ASIC se usarán cada vez más y desafiarán la posición de las GPU, que son programables y versátiles? Especialmente cuando algunos ASIC especializados en ciertos tipos de carga de trabajo ofrecen ventajas en velocidad y costo.

Para Buck, se trata de un equilibrio entre las necesidades específicas de cálculo y la innovación en plataformas programables. “Podemos hacer un ASIC para GPT-OSS, en entornos extremos, con modelos integrados en el chip. Estoy seguro de que sería eficiente. Pero ese modelo, y la forma en que se implementa, quedaría fija en el silicio, privando al mundo de futuras optimizaciones, incluyendo mejoras en software, que podrían hacer a GPT-OSS más rápido, inteligente y escalable”, explicó.

Buck también compartió un ejemplo: hace un año, Nvidia lanzó DeepSeek-R1, y desde entonces la eficiencia de los modelos ha mejorado gracias a que en todo el mundo se han aprendido nuevas metodologías y se ha optimizado la ejecución de modelos de expertos híbridos en GPU. “Esto es posible porque estos chips son abiertos y configurables. Se han desarrollado nuevas formas de ejecutar modelos de expertos híbridos, como paralelismo tensorial, paralelismo de expertos amplios, pipeline, y se ha avanzado desde FP16 a FP8 y FP4. La programabilidad de la plataforma permite multiplicar el rendimiento, permitiendo que las GPU generales funcionen más rápido, reduzcan costos y aumenten ingresos”, afirmó.

Un ejemplo que compartió es que 400 ingenieros de Nvidia dedicaron unos cuatro meses y 1.2 millones de horas de simulación en GPU para acelerar DeepSeek-R1. Los ingenieros encontraron 38 optimizaciones de software que multiplicaron por cuatro el rendimiento en la misma GPU, solo con mejoras en software.

“Podemos hacer que los modelos sean muy específicos para diferentes cargas de trabajo, incluso codificando modelos en el chip, pero eso nos haría perder oportunidades de crear nuevos algoritmos y tecnologías. Sin embargo, si basamos la plataforma en la programabilidad, el 95% de las optimizaciones y avances serán aplicables a todos los modelos del ecosistema, ayudando a que el próximo sea más inteligente”, afirmó Buck.

Sobre si Groq también será parte del ecosistema CUDA, Buck dijo que, aunque la primera generación de LPU aún no está lista, planean abrir su entorno de programación en el futuro, y discutirán si será a través de CUDA u otra vía.

Fundamentos para la IA física

En esta GTC, Nvidia también anunció varias novedades en IA física. En robots, presentó el marco de simulación Isaac, modelos de código abierto Cosmos e Isaac GROOT, para el desarrollo, entrenamiento y despliegue de robots, siendo Cosmos 3 el primer modelo unificado que genera mundos sintéticos, realiza inferencias de IA física y simula movimientos. En conducción autónoma, lanzó el modelo de inferencia VLA (visión, acción y lenguaje) Alpamayo 1.5, para potenciar la capacidad de razonamiento de los vehículos autónomos.

Nvidia ya no solo ofrece hardware de cálculo para IA física, sino que también realiza cada vez más despliegues de software, incluyendo modelos profundos y de código abierto.

Lebaredian explicó que, hoy en día, el código abierto es más importante que nunca. Nvidia invierte mucho en investigación y tecnología de código abierto, especialmente en IA física, porque no puede construirla sola. Para que los robots tengan su momento ChatGPT, todos deben contribuir. Como Nvidia está en el centro de la IA, actuando como conectora en el ecosistema, este trabajo debe comenzar desde Nvidia.

Sobre el desarrollo de modelos básicos del mundo, Lebaredian explicó que los grandes modelos de lenguaje aprenden del internet, identifican patrones en el lenguaje y finalmente generan inteligencia. Nvidia está usando modelos básicos del mundo para hacer algo similar.

“Los modelos básicos del mundo aprenden a partir de leyes físicas, no solo del lenguaje. Cosmos es de código abierto, y cualquier empresa puede ejecutarlo en su computadora para diversos usos. Además del modelo, Nvidia proporciona datos, marcos y planos para crear modelos”, afirmó Lebaredian. La razón de esto es que aún estamos lejos de completar la IA física y la robótica, y la comunidad de código abierto puede impulsar ese avance. Muchas empresas de modelos del mundo usan Cosmos para entrenar y evaluar, y convertir la IA en un maestro para otra IA.

En cuanto a las etapas de desarrollo en diferentes áreas de IA física, Lebaredian señaló que en la conducción autónoma el desafío ha pasado de la ciencia a la ingeniería, simplemente ampliando la escala y explorando cómo hacer que más autos circulen. Pero en robots universales, la situación es diferente: aún no tienen cuerpos robóticos adecuados, ni manos eficientes, y la parte física necesita mejoras en sensores, actuadores, motores y baterías.

Lebaredian afirmó que, incluso si se construye un cuerpo robótico perfecto, todavía no se usaría mucho, y se requiere mucho tiempo y esfuerzo para programar robots para tareas simples. La industria está en un momento crucial: las tecnologías ya permiten que los robots tengan cerebros útiles, y estamos a punto de cruzar esa línea. Se empieza a ver que el momento ChatGPT en los robots está llegando. La conexión entre tecnología y aplicaciones ya está en marcha, por ejemplo, usando capacidades de inferencia para que los agentes en Cosmos generen datos necesarios para entrenar robots.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado