Entrevista de Huang Renxun na GTC: a inferência de baixa latência será o próximo motor de explosão da economia de IA, e o equilíbrio apertado entre oferta e procura de chips de energia continuará a longo prazo

SnapshotLaborer · 2026-03-17T12:09:44+00:00

Huang Ren-Hsuan declarou numa entrevista que a melhoria das capacidades de raciocínio de IA fez com que os modelos começassem a gerar valor económico, sendo o surgimento de agentes de programação um sinal desta transformação. O lado da oferta enfrenta constrangimentos em energia e capacidade de chips, e a NVIDIA integrou capacidades de inferência de baixa latência nas suas linhas de produtos e adquiriu a Groq para otimizar processos de inferência. Simultaneamente, o conceito de design da CPU Vera redefiniu a arquitetura de servidores para se adaptar às necessidades de agentes de IA.

SnapshotLaborer

2026-03-17 12:09:44

Geração de resumo em curso

A IA está a passar de “gerar informações” para “executar tarefas”,** com cenários de inferência de baixa latência e alto throughput, representados por agentes de codificação**, a abrir a próxima fase importante na comercialização da infraestrutura de IA. No lado da oferta, eletricidade, chips e construção de data centers quase não têm redundância,** o equilíbrio apertado pode tornar-se a característica de fundo do setor a longo prazo.**

Após o encerramento do discurso principal do GTC 2026, o CEO da Nvidia, Huang Renxun, concedeu uma entrevista ao fundador do Stratechery, Ben Thompson, abordando de forma sistemática temas centrais como a economia da inferência de IA, estratégia de CPUs, aquisição da Groq e tensões na cadeia de abastecimento.

Huang Renxun destacou na entrevista que a IA ultrapassou um marco crucial no último ano —** a melhoria na capacidade de inferência começou a gerar valor económico real para os modelos**, e a explosão de agentes de programação é a manifestação mais clara dessa mudança. A Nvidia integrou oficialmente a inferência de alta velocidade e baixa latência no seu portefólio de produtos.

No que diz respeito à cadeia de abastecimento, Huang afirmou que** “quase todos os elos estão muito apertados”**, seja na eletricidade ou no fornecimento de chips, ambos difíceis de duplicar facilmente. Embora a Nvidia diga que o seu supply chain já foi planeado para “este ano e o próximo”, ele deseja que “a terra, a eletricidade e os data centers” avancem mais rapidamente, o que afetará diretamente o ritmo de expansão do poder de processamento e o caminho de realização de despesas de capital.

Economia da inferência: baixa latência torna-se o próximo motor de pagamento

Huang atribui o principal avanço no desenvolvimento de IA no último ano à maturidade da “inferência”. Ele afirma que, no início, a IA generativa tinha dificuldades de comercialização devido a problemas de alucinação, mas a introdução da inferência permitiu que os modelos refletissem, recuperassem e buscassem informações, passando de fornecer informações a realizar tarefas de forma efetiva.

“Pesquisar é um serviço que ninguém paga, porque o acesso à informação não tem barreira suficiente para que as pessoas gastem dinheiro”, disse Huang. “Agora, ultrapassámos essa barreira — a IA não só consegue conversar com as pessoas, como também fazer coisas por elas.”

A programação é o exemplo mais típico. Ele explica que a geração de código não é uma tarefa comum de linguagem, requerendo que o modelo reflita, valide e execute blocos de código de forma holística. Essa maturidade permite aos engenheiros focar mais na arquitetura e especificações do que na escrita linha a linha.

Huang revelou que 100% dos engenheiros de software da Nvidia já usam agentes de programação, “muitos há algum tempo sem escrever uma linha de código manualmente, mas a sua produtividade é altíssima.”

Com base nesta avaliação, a Nvidia decidiu incorporar a capacidade de inferência de baixa latência na sua linha de produtos. Huang explicou que os sistemas GPU atuais têm uma tensão inerente entre maximizar o throughput e a qualidade do token inteligente,** e que para utilizadores de agentes de programação de alto valor, estão dispostos a pagar um prémio por um aumento de 10 vezes na velocidade de geração de tokens**.

“Se a Anthropic lançar um serviço Claude Code que aumente a velocidade de programação em 10 vezes, eu pagarei, sem dúvida. Estou a construir esse produto para mim.”

Aquisição da Groq: uma estratégia de descontrução da linha de produção de inferência

Para Huang, a aquisição da Groq não foi uma decisão repentina, mas uma extensão natural de uma estratégia de vários anos na infraestrutura de inferência.

Ele explica que, há um ano, a Nvidia lançou o quadro de agendamento de inferência Dynamo, e já pensava em como dividir de forma mais granular o processo de inferência em infraestruturas heterogéneas. A colaboração com a Groq começou cerca de seis meses antes do anúncio da aquisição. O objetivo principal é obter a equipe e a tecnologia da Groq, não o seu negócio de serviços em nuvem.

Tecnicamente, a Nvidia pretende estender a divisão da linha de inferência até à fase de decodificação, com a GPU Vera Rubin a tratar cálculos de atenção de alto FLOP, enquanto a arquitetura LPU da Groq assumirá tarefas que requerem taxas de token extremamente altas e latência muito baixa. Espera-se lançar produtos relacionados ainda este ano.

Huang afirmou:

“Se o seu negócio, como a Anthropic ou a OpenAI,** já está a gerar valor económico real**, e quer gerar mais tokens, então juntar-se a** este acelerador pode aumentar significativamente a receita**.”

Ele também reconhece que esta solução não é adequada para todos os clientes. Para plataformas predominantemente gratuitas, com baixa taxa de conversão para pagamento, introduzir a Groq aumentaria custos e complexidade, tornando-se pouco vantajoso.

Huang comparou a Groq com a aquisição anterior da Mellanox — ambas representam a lógica da Nvidia de integrar arquiteturas externas dedicadas na sua pilha de computação, para otimizações de sistema coordenadas. “A Nvidia é uma empresa de computação acelerada, não uma fabricante de GPUs. Não nos importamos onde a computação acontece, queremos acelerar aplicações.”

Estratégia de CPU: redefinir a arquitetura de servidores para a era dos agentes de IA

Num contexto em que a Nvidia é vista há muito como uma empresa de GPUs, Huang explicou de forma sistemática a lógica de entrada no mercado de CPUs e a filosofia de design do seu CPU Vera.

Ele afirma que, nos últimos dez anos, o foco do design de CPUs foi otimizar para a computação em nuvem de grande escala — maximizar o número de núcleos alugáveis, sem priorizar o desempenho de thread único. Contudo, no cenário de agentes de IA, enquanto a GPU aguarda a resposta de chamadas de ferramentas,** o desempenho de thread único do CPU determina a eficiência global do sistema**. “Nunca podes deixar a GPU ociosa”, disse.

A principal diferença do CPU Vera reside na largura de banda de memória e I/O:** cada núcleo do CPU tem uma largura de banda três vezes superior à de qualquer CPU atual, projetada para evitar que gargalos de I/O atrasem a GPU**. Ele também mencionou a colaboração com a Intel na tecnologia NVLink, para atender às necessidades de continuidade do ecossistema x86 no mercado empresarial.

Huang categoriza o uso de ferramentas de IA em duas classes: uma estruturada, incluindo CLI, API e consultas a bases de dados; outra não estruturada, incluindo aplicações de PC que usam modelos para perceber múltiplos modos e operar interfaces web. A Nvidia tem presença em ambas as áreas.

Equilíbrio apertado na cadeia de abastecimento: eletricidade e capacidade de chips em crise

Sobre a questão da oferta de capacidade de computação de IA, Huang deu a avaliação mais direta até agora:** eletricidade e capacidade de chips estão ambos em equilíbrio apertado, sem espaço para duplicar a oferta a curto prazo**.

“Não acho que tenhamos o dobro da eletricidade necessária, nem o dobro da capacidade de chips. Em qualquer aspecto, não há redundância de duas vezes”, afirmou. “Mas, com o que vejo para o futuro, a nossa cadeia de abastecimento consegue suportar.”

Ele acrescentou que a Nvidia conta com cerca de 200 parceiros de longo prazo na cadeia de fornecimento, tendo planeado com antecedência as operações a montante e a jusante, e mantém uma visão otimista para o crescimento em grande escala nos próximos dois anos.

Por outro lado, admitiu que o maior gargalo atualmente talvez não seja o chip em si, mas a velocidade de implementação de infraestruturas de data centers — terrenos, eletricidade e edifícios. “O que mais desejo é que essas infraestruturas fiquem prontas mais rapidamente.”

Quando questionado se a Nvidia é o maior beneficiário da escassez de capacidade de computação, Huang reconheceu que a sua empresa é a maior e mais preparada na cadeia, mas atribui isso a um planeamento de longo prazo, não a uma vantagem de mercado por acaso.

Aviso de risco e isenção de responsabilidade

        O mercado tem riscos, invista com cautela. Este artigo não constitui aconselhamento de investimento pessoal, nem considera objetivos, situação financeira ou necessidades específicas de cada utilizador. Os utilizadores devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com a sua situação particular. Investir com base neste conteúdo é de sua responsabilidade.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.