Conversa com o vice-presidente de negócios da Nvidia: está chegando o "momento ChatGPT" dos robôs

Pode ser mais difícil entender a Nvidia hoje do que nunca, mas ainda vale a pena explorar como esta empresa, que influencia o desenvolvimento de várias áreas de IA, está a delinear o futuro da IA.

Os sinais de expansão dos negócios da Nvidia tornaram-se evidentes. Nesta edição da GTC, a Nvidia lançou produtos que abrangem aceleradores para centros de dados, racks, produtos de rede e vários modelos de código aberto. Palavras-chave como CUDA, GPU, LPU (Unidade de Processamento de Linguagem), fábrica de IA, robótica, condução autónoma e modelos de código aberto foram frequentemente mencionadas no discurso do CEO Jensen Huang. Esta empresa, conhecida pelas suas GPUs, parece agora mais adequada a ser vista como uma fabricante que cobre várias etapas da infraestrutura de IA ou fábricas de IA.

Mesmo na área de aceleradores para centros de dados, a variedade de produtos da Nvidia tornou-se maior. Além da plataforma Rubin, uma LPU (Unidade de Processamento de Linguagem) também foi introduzida. Enquanto a LPU, originalmente uma circuito integrado específico (ASIC), se posiciona em um campo diferente da GPU de uso geral, a Nvidia, após adquirir a licença da Groq, iniciou a combinação de ambos os chips.

Fora os 60% de negócios voltados para grandes provedores de nuvem, parece que os 40% restantes, mais complexos, também estão a evoluir com novas subdivisões. A condução autónoma e a robótica no âmbito da IA física tornaram-se dois focos importantes. Para implementar a IA física, a Nvidia não só desenvolve hardware, mas também plataformas de condução autónoma e modelos.

Compreender a Nvidia de hoje pode ser mais difícil do que nunca, mas a questão de como esta empresa, que influencia várias áreas de IA, está a traçar o futuro da IA, continua a ser uma questão que vale a pena explorar. Durante a GTC, o repórter do First Financial conversou com Ian Buck, vice-presidente de computação de alta performance e de grande escala da Nvidia, e Rev Lebaredian, vice-presidente de Omniverse e de tecnologia de simulação, tentando entender as ideias e considerações por trás de alguns produtos da Nvidia, discutindo o fenômeno da heterogeneidade dos chips, a estratégia da Nvidia para a IA física e por que o “momento ChatGPT” na robótica está a chegar.

Por que as GPUs continuam a dominar

Baseando-se na tecnologia da Groq, a Nvidia lançou nesta GTC os chips LPU Groq 3 e Groq 3 LPX para racks. Segundo a empresa, o Groq 3 LPX, usado junto com CPUs e GPUs Rubin, pode aumentar em 35 vezes a capacidade de inferência por megawatt, e será integrado na próxima geração da fábrica de IA Vera Rubin na segunda metade deste ano.

A chegada do Groq 3 faz com que a GPU deixe de ser a única forma de acelerador para centros de dados da Nvidia. Antes, a questão de como a GPU enfrentaria o desafio dos ASICs era um tema de discussão há algum tempo. No final do ano passado, a Nvidia assinou um acordo de propriedade intelectual não exclusivo com a Groq, incluindo a contratação de fundadores e executivos-chave da Groq, como Jonathan Ross e Sunny Madra, interpretado como uma estratégia para enfrentar os desafios do mercado. A baixa latência na inferência é uma característica do LPU da Groq. Mas o que a Nvidia pretende ao incluir o LPU na sua gama de produtos?

Segundo Jensen Huang, cada token de modelos de diferentes tamanhos tem diferenças. Para as principais necessidades atuais de produção de tokens, o Rubin continua a ser uma plataforma importante, mas surgem novos mercados segmentados. À medida que os modelos aumentam de tamanho, o contexto se alonga, o que exige velocidades de inferência muito rápidas. A combinação de novos chips permite atender a várias demandas de cálculo.

Ian Buck explica: o Groq 3 LPU pode ser visto como uma “versão aprimorada” do Rubin. Com uma memória SRAM de alta velocidade, o LPU realiza cálculos de ponto flutuante rapidamente. No entanto, há limitações: usar apenas LPUs para rodar modelos com trilhões de parâmetros pode exigir dezenas de racks, tornando-se inviável em escala, com altos custos e baixa eficiência de infraestrutura. Mas, ao combinar um rack de LPX com racks de Rubin, é possível aproveitar as vantagens de ambos os chips, permitindo que todos os cálculos de atenção sejam feitos na GPU, enquanto as operações matriciais de modelos especializados sejam realizadas na LPU.

“Para a maioria dos sistemas de IA atuais, como chatbots ou sistemas de recomendação, o mercado continuará a ser atendido pelo Rubin, e a LPU não substituirá esses cenários. Mas, para a próxima geração de agentes inteligentes, com modelos de trilhões de parâmetros, dezenas de milhares de tokens de contexto e velocidades de milhares de tokens por segundo, a combinação de ambos os chips torna-se possível”, afirmou Ian Buck.

Outras empresas também estão a experimentar diferentes chips nos centros de dados. A AMD, por exemplo, firmou uma parceria com a Meta no final de fevereiro para desenvolver chips semi-customizados. Recentemente, a vice-presidente Su Zifeng explicou que a infraestrutura de IA está a tornar-se mais complexa, com várias cargas de trabalho — seja treino ou inferência, grandes ou pequenos modelos — que requerem diferentes tipos de cálculo. “Na próxima fase da infraestrutura de IA, nenhum chip único será capaz de fazer tudo da melhor forma. Este é um mundo heterogéneo. As pessoas também querem maximizar a eficiência por watt, especialmente ao rodar muitas cargas de trabalho de IA. ASICs terão seu lugar na demanda de cálculo”, afirmou, alinhando-se às ideias de Huang sobre custos e diversidade de cargas de trabalho.

Com a crescente heterogeneidade dos chips, os ASICs irão cada vez mais desafiar a posição das GPUs, que são programáveis e versáteis, especialmente quando alguns ASICs específicos para certas cargas de trabalho oferecem vantagens em velocidade e custo.

Ian Buck vê isso como uma questão de equilíbrio entre necessidades específicas de cálculo e inovação na plataforma. “Podemos criar ASICs específicos para GPT-OSS, por exemplo, e, em ambientes extremos, usar modelos para fabricar chips. Acredito que isso pode ser eficiente. Mas esse modelo e sua implementação ficarão fixos no silício, limitando futuras otimizações, incluindo melhorias de software, que poderiam tornar o GPT-OSS mais rápido, inteligente ou escalável”, explicou.

Ele também comentou: “O DeepSeek-R1 foi lançado há um ano, e desde então sua eficiência melhorou à medida que o mundo aprendeu novas formas de otimizar, como executar modelos de especialistas mistos na GPU, usando paralelismo tensorial, paralelismo de especialistas amplos, pipeline paralelo, e passando de FP16 para FP8, FP4. A programabilidade da plataforma possibilitou melhorias de desempenho de várias vezes, permitindo que GPUs genéricas rodem mais rápido, com custos menores e maior receita.”

Ian Buck exemplificou: “A equipe de 400 engenheiros de software da Nvidia dedicou cerca de quatro meses, com 1,2 milhão de horas de simulação na GPU, para otimizar o DeepSeek-R1. Encontraram 38 formas de otimização de software, que aumentaram em quatro vezes o desempenho na mesma GPU. Ou seja, melhorias apenas de software podem multiplicar por quatro os benefícios do DeepSeek.”

“Podemos fazer otimizações muito específicas para diferentes cargas de trabalho, até codificando modelos diretamente no chip, mas assim perderíamos oportunidades de desenvolver novos algoritmos e tecnologias. Descobrimos que, com uma plataforma programável, 95% das otimizações e inovações podem ser aplicadas a todos os modelos do ecossistema, ajudando a tornar o próximo modelo mais inteligente”, afirmou Ian Buck.

Sobre a inclusão do Groq no ecossistema CUDA, Ian Buck disse que, embora a primeira geração do LPU ainda não seja compatível, há planos para abrir a plataforma de programação do LPU no futuro, discutindo se será através do CUDA ou de outro método.

Fundamentando a IA física

Na GTC, a Nvidia revelou várias novidades relacionadas à IA física. No campo da robótica, lançou o framework de simulação Isaac, os modelos de código aberto Cosmos e Isaac GROOT, destinados ao desenvolvimento, treino e implantação de robôs, sendo que o Cosmos 3 é o primeiro modelo de mundo sintético unificado, gerando ambientes, raciocínio físico e simulação de ações. Para condução autónoma, apresentou o modelo de inferência VLA (Visão, Ação, Linguagem) Alpamayo 1.5, que visa aprimorar a capacidade de raciocínio de veículos autônomos.

A Nvidia, na área de IA física, não se limita a fornecer hardware de computação, mas também tem investido cada vez mais em software, incluindo o desenvolvimento de modelos avançados e seu código aberto.

Rev Lebaredian afirmou que, atualmente, a abertura de código é mais importante do que nunca. A Nvidia investe bastante em pesquisa e tecnologia de código aberto, especialmente na IA física, pois não é possível uma única empresa construir a IA física sozinha. Para que o momento do ChatGPT na robótica chegue, é necessário que todos contribuam. Como a Nvidia está no centro do ecossistema de IA, ela atua como uma conectadora de todos.

Sobre o desenvolvimento de modelos de mundo fundamental, Rev Lebaredian explicou que grandes modelos de linguagem aprendem a partir da internet, identificando padrões na linguagem, levando à inteligência. A Nvidia está a usar modelos de mundo fundamental para fazer algo semelhante.

“Os modelos de mundo fundamental aprendem sobre o mundo com base em leis físicas, não apenas em linguagem. Cosmos é de código aberto, permitindo que qualquer empresa rode na sua infraestrutura e use para várias aplicações. Além do modelo, a Nvidia fornece os dados, frameworks e planos necessários para criar modelos”, afirmou. Ele explicou que essa estratégia é motivada pela distância ainda a percorrer para alcançar a IA física e a robótica completas, e que o código aberto é fundamental para impulsionar esse avanço. Muitas empresas de modelos de mundo fundamental já usam Cosmos para treinar e avaliar seus modelos, transformando a IA em uma espécie de professor de outros sistemas de IA.

Quanto às diferentes fases de desenvolvimento na área de IA física, Rev Lebaredian afirmou que, para veículos autônomos, o desafio mudou de científico para de engenharia, focando na escala e na operacionalização de cada vez mais veículos nas estradas. Para robôs universais, a situação é diferente: eles ainda enfrentam desafios em todos os aspectos, como a falta de um corpo robótico bem desenvolvido, mãos eficientes, sensores, atuadores, motores e baterias que precisam de melhorias.

Rev Lebaredian destacou que, mesmo com um corpo robótico perfeito, os robôs ainda não seriam capazes de usá-lo efetivamente, pois ainda há muito trabalho de engenharia para programar os robôs para realizar tarefas simples. A indústria está num momento crucial, com avanços tecnológicos suficientes para tornar a inteligência dos robôs útil, e o “momento ChatGPT na robótica” está a chegar. A conexão entre tecnologia e aplicação já está a acontecer, por exemplo, usando raciocínio para gerar dados necessários ao treinamento de robôs em Cosmos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar