Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Gigantes da tecnologia apostam coletivamente em chips de desenvolvimento próprio, a batalha pelos chips de IA está a acelerar a migração para o lado da inferência
A adopção explosiva de IA generativa está a remodelar o panorama competitivo de toda a indústria dos semicondutores. O campo de batalha central do mercado de chips de IA está a sofrer uma transferência estrutural do estágio de treino do modelo para o estágio de inferência — esta mudança não é apenas sobre prioridades de design de chips, como também vai influenciar profundamente a lógica de investimento em infraestruturas, os modelos de negócio e o rumo de longo prazo da cadeia de abastecimento de semicondutores.
O aumento abrupto da procura por inferência já apresenta sinais claros. A explosão de casos de uso virais como a geração de imagens em estilo Ghibli saturou completamente os recursos GPU da OpenAI. O CEO da OpenAI, Sam Altman, afirmou publicamente que nunca tinha visto um crescimento de utilização tão rápido; por isso, o GPT-4.5 teve de ser lançado por etapas, inicialmente apenas para utilizadores pagantes. Empresas líderes de IA como a Meta enfrentam também gargalos semelhantes de capacidade de computação. Entretanto, a OpenAI está a desenvolver em autonomia chips de IA, com o objectivo de atingir produção em larga escala por volta de 2026, para reduzir a dependência da Nvidia; o projecto de supercentro de dados “Stargate”, avançado em conjunto com a Microsoft, de acordo com relatos, envolve um investimento de até 500 mil milhões de dólares.
Esta série de desenvolvimentos indica que a inferência de IA está a tornar-se um pilar estratégico a par dos centros de dados, das infraestruturas de cloud e dos semicondutores. Para os investidores, isto significa que** o foco do valor dos investimentos em capacidade de computação de IA está a mudar: os chips de treino representam um gasto de capital único (CAPEX), enquanto os chips de inferência correspondem a um modelo de consumo de receitas contínuas — a IA está a evoluir de ferramenta técnica para um motor de capacidade de computação cobrado por volume.**
Treino e inferência: duas necessidades de computação completamente diferentes
Para compreender esta mudança estrutural, é necessário, em primeiro lugar, clarificar as diferenças essenciais entre treino e inferência ao nível das cargas de trabalho.
A fase de treino assenta na arquitectura Transformer, lançada pela Google em 2017: exige propagação direta e inversa sobre conjuntos de dados massivos, actualizando continuamente os pesos do modelo; envolve operações de matrizes em escala extrema, cálculo de gradientes e actualização de parâmetros, normalmente exigindo computação distribuída por semanas ou meses em clusters multi-GPU ou multi-TPU. Por isso, os chips de treino precisam de núcleos de computação de alta densidade, de memória de grande capacidade e elevada largura de banda (como HBM), e de capacidade para expansão horizontal entre múltiplos chips.
A fase de inferência é, em estrutura, mais simples: requer apenas propagação direta, sem actualização de gradientes nem retropropagação; a computação necessária é tipicamente cerca de uma ordem de grandeza inferior à do treino. No entanto, o verdadeiro desafio da inferência reside em três restrições: baixa latência (os utilizadores esperam uma resposta imediata), alta capacidade de processamento (os prestadores têm de lidar com enormes volumes de consultas concorrentes) e baixo custo (o custo unitário por consulta influencia directamente a viabilidade comercial). Estas necessidades são totalmente opostas à lógica da fase de treino — “sem contabilizar a latência, com foco no desempenho máximo” — e determinam também que, ao nível do design de arquitectura, os chips de inferência têm de seguir caminhos diferenciados: prioridade à eficiência energética, optimização da movimentação de dados, maximização da utilização de hierarquias de memória e da largura de banda, e optimização cooperativa entre hardware e software.
Grandes fornecedores de cloud e startups a acelerar o planeamento de chips de inferência
É precisamente com base nessas diferenças de arquitectura que um número crescente de empresas opta por contornar a concorrência frontal da Nvidia no mercado de GPUs de treino, passando a construir chips personalizados optimizados para inferência.
No caso de grandes fornecedores de cloud, a Google lançou a TPU (treino) e a Edge TPU (inferência na ponta); a Amazon implementou a Inferentia e a Trainium; a Meta desenvolveu a MTIA (Meta Training and Inference Accelerator). A frente de startups também está activa: Groq, Tenstorrent, Cerebras, SambaNova, entre outras, procuram avanços diferenciados em dimensões como arquitectura de dataflow, alocação de área do chip, eficiência de consumo, padrões de acesso à memória e design dos núcleos de computação, com o objectivo de ultrapassar as GPUs de uso geral em eficiência de inferência e estrutura de custos.
A formação deste panorama competitivo está intimamente relacionada com a evolução dos cenários de aplicação de IA. À medida que a IA evolui de perguntas e respostas simples para sistemas de agentes (Agentic AI) — capazes de planear tarefas, executar fluxos de trabalho, chamar ferramentas e até substituir parte do trabalho humano — a procura por inferência não só continuará a crescer como também se acelerará a expansão. As exigências dos sistemas de agentes por baixa latência, elevada largura de banda de memória e capacidade de computação contínua irão aumentar ainda mais o valor estratégico dos chips dedicados a inferência.
Nvidia: de líder da era do treino a decisor de regras na era da inferência
Perante esta mudança estrutural, a Nvidia não está a reagir de forma passiva; está a expandir activamente a sua presença no mercado de inferência.
O objectivo central do design mais recente da arquitectura Blackwell é aumentar o throughput enquanto reduz o custo de geração de cada token. Esta lógica cria um ciclo virtuoso: descida do custo → aumento do consumo → expansão da procura → aumento da escala das infraestruturas, impulsionando um crescimento exponencial da economia da IA. No nível de sistemas, a Nvidia, através de clusters massivos de GPUs com integração apertada, como a NVL72, constrói uma arquitectura de “fábrica de IA” capaz de lidar com janelas de contexto mais longas, tarefas de inferência mais complexas e fluxos de trabalho de IA de múltiplos passos, promovendo a evolução das infraestruturas de IA na direcção de maior centralização, alta densidade e condução por sistemas.
No entanto, a verdadeira vala protegida da Nvidia não reside apenas no hardware. Do CUDA até ao software stack optimizado para inferência como TensorRT-LLM, a Nvidia está a transformar-se de fornecedor de chips para fornecedor de infraestruturas completas de IA. Prestadores de cloud como a Microsoft, Oracle e CoreWeave continuam a aproximar-se dessa arquitectura, reforçando ainda mais os efeitos de custos de mudança elevados no seu ecossistema e a estandardização na indústria. Os clientes deixam de comprar apenas GPUs; passam a adquirir uma plataforma completa de fábrica de IA.
Ainda assim, a intensidade competitiva no mercado de inferência está a aumentar significativamente. Os chips de inferência já não são uma opção secundária para GPUs de treino; estão a tornar-se o principal motor de capacidade de computação para serviços de cloud de IA, dispositivos de ponta (edge), sistemas embebidos e aplicações em tempo real. Com a dupla força do avanço do hardware e da expansão das aplicações, a questão central da competição de chips de IA está a mudar de forma fundamental: de “quem consegue treinar o maior modelo” para “quem consegue executar modelos com a máxima eficiência em cenários à escala”.
A mudança estrutural remodela o panorama competitivo da indústria de semicondutores
A migração do treino para a inferência excede já o próprio design de chips; está a penetrar profundamente em três dimensões: arquitectura de sistemas de IA, estratégias de deployment e estrutura da cadeia de abastecimento.
No nível dos modelos de negócio, a lógica económica da IA está a ser reestruturada de forma fundamental. O treino corresponde a despesas de capital, enquanto a inferência corresponde a receitas contínuas — a capacidade de computação deixa de estar ligada directamente a métricas técnicas para passar a ser vinculada à receita; as GPUs deixam de ser apenas dispositivos de hardware para se tornarem máquinas de geração de tokens. Esta mudança de paradigma significa que a escala e a eficiência das infraestruturas de inferência irão determinar directamente a capacidade de lucratividade e as barreiras competitivas das empresas de IA.
No nível da cadeia de abastecimento, a ascensão da era pós-treino — incluindo aplicações amplas de tecnologias como afinação (fine-tuning), LoRA e adaptadores — bem como meios de reforço de inferência como ajustes dinâmicos na estrutura de prompts e colaboração entre múltiplos modelos, estão a aumentar substancialmente a dependência de capacidade de computação de inferência, impulsionando uma expansão rápida da procura por hardware diversificado para inferência, como NPU, ASIC e FPGA.
Para os investidores, esta mudança estrutural sinaliza claramente o mercado: o foco do valor dos investimentos em infraestruturas de IA está a migrar da ponta do treino para a ponta da inferência; empresas que consigam obter vantagens simultaneamente em três dimensões — eficiência de inferência, controlo de custos e deployment à escala — vão assumir uma posição proactiva na próxima fase da competição por capacidade de computação de IA.
Aviso de riscos e cláusula de exclusão de responsabilidade