Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Centro de Património VIP
Aumento de património premium
Gestão de património privado
Alocação de ativos premium
Fundo Quant
Estratégias quant de topo
Staking
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos RWA
Entrevista de Huang Renxun na GTC: a inferência de baixa latência será o próximo motor de explosão da economia de IA, e o equilíbrio apertado entre oferta e procura de chips de energia continuará a longo prazo
A IA está a passar de “gerar informações” para “executar tarefas”,** com cenários de inferência de baixa latência e alto throughput, representados por agentes de codificação**, a abrir a próxima fase importante na comercialização da infraestrutura de IA. No lado da oferta, eletricidade, chips e construção de data centers quase não têm redundância,** o equilíbrio apertado pode tornar-se a característica de fundo do setor a longo prazo.**
Após o encerramento do discurso principal do GTC 2026, o CEO da Nvidia, Huang Renxun, concedeu uma entrevista ao fundador do Stratechery, Ben Thompson, abordando de forma sistemática temas centrais como a economia da inferência de IA, estratégia de CPUs, aquisição da Groq e tensões na cadeia de abastecimento.
Huang Renxun destacou na entrevista que a IA ultrapassou um marco crucial no último ano —** a melhoria na capacidade de inferência começou a gerar valor económico real para os modelos**, e a explosão de agentes de programação é a manifestação mais clara dessa mudança. A Nvidia integrou oficialmente a inferência de alta velocidade e baixa latência no seu portefólio de produtos.
No que diz respeito à cadeia de abastecimento, Huang afirmou que** “quase todos os elos estão muito apertados”**, seja na eletricidade ou no fornecimento de chips, ambos difíceis de duplicar facilmente. Embora a Nvidia diga que o seu supply chain já foi planeado para “este ano e o próximo”, ele deseja que “a terra, a eletricidade e os data centers” avancem mais rapidamente, o que afetará diretamente o ritmo de expansão do poder de processamento e o caminho de realização de despesas de capital.
Economia da inferência: baixa latência torna-se o próximo motor de pagamento
Huang atribui o principal avanço no desenvolvimento de IA no último ano à maturidade da “inferência”. Ele afirma que, no início, a IA generativa tinha dificuldades de comercialização devido a problemas de alucinação, mas a introdução da inferência permitiu que os modelos refletissem, recuperassem e buscassem informações, passando de fornecer informações a realizar tarefas de forma efetiva.
“Pesquisar é um serviço que ninguém paga, porque o acesso à informação não tem barreira suficiente para que as pessoas gastem dinheiro”, disse Huang. “Agora, ultrapassámos essa barreira — a IA não só consegue conversar com as pessoas, como também fazer coisas por elas.”
A programação é o exemplo mais típico. Ele explica que a geração de código não é uma tarefa comum de linguagem, requerendo que o modelo reflita, valide e execute blocos de código de forma holística. Essa maturidade permite aos engenheiros focar mais na arquitetura e especificações do que na escrita linha a linha.
Huang revelou que 100% dos engenheiros de software da Nvidia já usam agentes de programação, “muitos há algum tempo sem escrever uma linha de código manualmente, mas a sua produtividade é altíssima.”
Com base nesta avaliação, a Nvidia decidiu incorporar a capacidade de inferência de baixa latência na sua linha de produtos. Huang explicou que os sistemas GPU atuais têm uma tensão inerente entre maximizar o throughput e a qualidade do token inteligente,** e que para utilizadores de agentes de programação de alto valor, estão dispostos a pagar um prémio por um aumento de 10 vezes na velocidade de geração de tokens**.
Aquisição da Groq: uma estratégia de descontrução da linha de produção de inferência
Para Huang, a aquisição da Groq não foi uma decisão repentina, mas uma extensão natural de uma estratégia de vários anos na infraestrutura de inferência.
Ele explica que, há um ano, a Nvidia lançou o quadro de agendamento de inferência Dynamo, e já pensava em como dividir de forma mais granular o processo de inferência em infraestruturas heterogéneas. A colaboração com a Groq começou cerca de seis meses antes do anúncio da aquisição. O objetivo principal é obter a equipe e a tecnologia da Groq, não o seu negócio de serviços em nuvem.
Tecnicamente, a Nvidia pretende estender a divisão da linha de inferência até à fase de decodificação, com a GPU Vera Rubin a tratar cálculos de atenção de alto FLOP, enquanto a arquitetura LPU da Groq assumirá tarefas que requerem taxas de token extremamente altas e latência muito baixa. Espera-se lançar produtos relacionados ainda este ano.
Huang afirmou:
Ele também reconhece que esta solução não é adequada para todos os clientes. Para plataformas predominantemente gratuitas, com baixa taxa de conversão para pagamento, introduzir a Groq aumentaria custos e complexidade, tornando-se pouco vantajoso.
Huang comparou a Groq com a aquisição anterior da Mellanox — ambas representam a lógica da Nvidia de integrar arquiteturas externas dedicadas na sua pilha de computação, para otimizações de sistema coordenadas. “A Nvidia é uma empresa de computação acelerada, não uma fabricante de GPUs. Não nos importamos onde a computação acontece, queremos acelerar aplicações.”
Estratégia de CPU: redefinir a arquitetura de servidores para a era dos agentes de IA
Num contexto em que a Nvidia é vista há muito como uma empresa de GPUs, Huang explicou de forma sistemática a lógica de entrada no mercado de CPUs e a filosofia de design do seu CPU Vera.
Ele afirma que, nos últimos dez anos, o foco do design de CPUs foi otimizar para a computação em nuvem de grande escala — maximizar o número de núcleos alugáveis, sem priorizar o desempenho de thread único. Contudo, no cenário de agentes de IA, enquanto a GPU aguarda a resposta de chamadas de ferramentas,** o desempenho de thread único do CPU determina a eficiência global do sistema**. “Nunca podes deixar a GPU ociosa”, disse.
A principal diferença do CPU Vera reside na largura de banda de memória e I/O:** cada núcleo do CPU tem uma largura de banda três vezes superior à de qualquer CPU atual, projetada para evitar que gargalos de I/O atrasem a GPU**. Ele também mencionou a colaboração com a Intel na tecnologia NVLink, para atender às necessidades de continuidade do ecossistema x86 no mercado empresarial.
Huang categoriza o uso de ferramentas de IA em duas classes: uma estruturada, incluindo CLI, API e consultas a bases de dados; outra não estruturada, incluindo aplicações de PC que usam modelos para perceber múltiplos modos e operar interfaces web. A Nvidia tem presença em ambas as áreas.
Equilíbrio apertado na cadeia de abastecimento: eletricidade e capacidade de chips em crise
Sobre a questão da oferta de capacidade de computação de IA, Huang deu a avaliação mais direta até agora:** eletricidade e capacidade de chips estão ambos em equilíbrio apertado, sem espaço para duplicar a oferta a curto prazo**.
“Não acho que tenhamos o dobro da eletricidade necessária, nem o dobro da capacidade de chips. Em qualquer aspecto, não há redundância de duas vezes”, afirmou. “Mas, com o que vejo para o futuro, a nossa cadeia de abastecimento consegue suportar.”
Ele acrescentou que a Nvidia conta com cerca de 200 parceiros de longo prazo na cadeia de fornecimento, tendo planeado com antecedência as operações a montante e a jusante, e mantém uma visão otimista para o crescimento em grande escala nos próximos dois anos.
Por outro lado, admitiu que o maior gargalo atualmente talvez não seja o chip em si, mas a velocidade de implementação de infraestruturas de data centers — terrenos, eletricidade e edifícios. “O que mais desejo é que essas infraestruturas fiquem prontas mais rapidamente.”
Quando questionado se a Nvidia é o maior beneficiário da escassez de capacidade de computação, Huang reconheceu que a sua empresa é a maior e mais preparada na cadeia, mas atribui isso a um planeamento de longo prazo, não a uma vantagem de mercado por acaso.
Aviso de risco e isenção de responsabilidade