Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
Por trás do "chip misterioso" da Nvidia -- A era do raciocínio inicia as "quatro novas tendências de poder de computação"
Nvidia está a integrar a tecnologia LPU (Unidade de Processamento de Linguagem) e a apostar em múltiplos chips de inferência OpenAI, mudando o principal campo de competição de poder de cálculo de treino para inferência. A pesquisa da Shenwan Hongyuan acredita que, até 2026, a palavra-chave central na indústria de poder de cálculo será a inferência, e o consumo total de tokens e o paradigma tecnológico serão profundamente reestruturados em torno deste tema.
Em 28 de fevereiro, segundo o The Wall Street Journal, a Nvidia planeia lançar na próxima GTC uma nova chip de inferência que integra a tecnologia Groq “Unidade de Processamento de Linguagem” (LPU). O CEO da Nvidia, Jensen Huang, descreveu-o como “um sistema totalmente novo que o mundo nunca viu antes”. A OpenAI concordou em ser um dos maiores clientes deste processador, adquirindo uma grande capacidade de inferência dedicada.
Ao mesmo tempo, no mês passado, a OpenAI também firmou uma parceria de vários bilhões de dólares com a startup Cerebras, que afirma que a sua chip de inferência já supera as GPUs da Nvidia em velocidade. Estes movimentos indicam que os gigantes da IA estão a passar de uma corrida armamentista de poder de cálculo de treino para uma estratégia multicanal de poder de inferência.
A pesquisa da Shenwan Hongyuan aponta que, na era da economia de tokens, há quatro grandes tendências na inferência: primeiro, o aumento do uso de CPUs (Unidades Centrais de Processamento) em cenários de implantação, acelerando a descentralização do poder de cálculo devido à menor custo; segundo, o surgimento de arquiteturas dedicadas como LPU, desafiando a posição dominante das GPUs na inferência; terceiro, avanços acelerados em chips de poder de cálculo nacionais, com uma tendência clara de diversificação da cadeia de abastecimento; quarto, a mudança na estrutura de demanda de poder de cálculo de “treinamento único” para “consumo massivo de tokens”, tornando a relação custo-benefício o fator central de competitividade.
O relatório indica que as empresas capazes de fornecer chips de inferência acessíveis e de alto desempenho beneficiar-se-ão mais, e que os avanços conjuntos em CPUs, LPU e chips nacionais constituem as principais pistas para a reestruturação do cenário de poder de cálculo.
Demanda de inferência explode, consumo de tokens atinge recordes históricos
---------------------
A pesquisa da Shenwan Hongyuan acredita que, por trás do crescimento contínuo da procura, existem duas forças estruturais principais: primeiro, a monetização de grandes modelos está a acelerar, com modelos como Claude a entrarem na fase de aplicação, lançando múltiplos plugins industriais; segundo, a implementação de agentes está a acelerar, com produtos como OpenClaw e Qianwen Agent a marcar a entrada de agentes em cenários reais de trabalho e produção, onde cada chamada de modelo e execução de tarefa de agente requerem uma grande quantidade de poder de inferência.
Dados citados pela Shenwan Hongyuan mostram que, durante o Ano Novo Chinês, a quantidade de inferência de grandes modelos domésticos aumentou significativamente: na véspera do Ano Novo, a taxa de processamento de tokens atingiu 63,3 bilhões; o número de utilizadores ativos mensais do Yuanbao atingiu 114 milhões; e a atividade do Qianwen durante o “Grande Evento de Isenção de Custos do Ano Novo” ultrapassou 120 milhões de participantes.
A plataforma global de APIs de modelos de IA, OpenRouter, revela ainda mais a escala desta tendência. Entre 9 e 15 de fevereiro, os modelos chineses ultrapassaram pela primeira vez os modelos americanos em chamadas de tokens, com 4,12 trilhões de tokens contra 2,94 trilhões. Entre 16 e 22 de fevereiro, os modelos chineses continuaram a subir, atingindo 5,16 trilhões de tokens, um aumento de 127% em três semanas, com quatro dos cinco principais modelos globais de chamadas de tokens sendo chineses.
LPU torna-se uma nova estrela, chips de treino e inferência evoluem para diferentes caminhos
------------------
A Nvidia investiu 20 mil milhões de dólares na licença da tecnologia central da Groq, e na sua transação de “contratação central” recrutou executivos, incluindo o fundador Jonathan Ross. A pesquisa da Shenwan Hongyuan considera que esta transação marca o reconhecimento oficial da importância dos chips de inferência pura pelos principais players.
A diferença arquitetural entre LPU e GPUs tradicionais é a razão fundamental pela qual a LPU possui vantagem de eficiência em cenários de inferência. A inferência de IA divide-se em duas fases: pré-preenchimento e decodificação, sendo que o processo de decodificação de modelos grandes é especialmente lento. A LPU foi otimizada especificamente para reduzir a latência e melhorar a largura de banda de memória, enfrentando os principais gargalos da inferência. Segundo relatos anteriores, o próximo lançamento da Nvidia poderá envolver uma arquitetura de próxima geração, Feynman, ou uma integração mais ampla de SRAM, possivelmente usando tecnologia de empilhamento 3D para integrar profundamente a LPU.
Com base nisso, a Shenwan Hongyuan prevê que, no futuro, os chips de IA terão uma divisão clara de funções: a fase de treino continuará a usar combinações de GPU e HBM, enquanto a inferência evoluirá para uma combinação de ASIC + LPU-SRAM + SSD. Com a mudança de foco do treino para a inferência, os fabricantes especializados em chips de inferência terão oportunidades de crescimento.
Revolução nos sistemas de inferência, CPU e rede com demanda crescente
---------------------
A evolução de chips individuais para sistemas completos é outro aspecto importante nesta fase de atualização do poder de cálculo de inferência. A Shenwan Hongyuan aponta que, à medida que os cenários de aplicação passam de chatbots para agentes, as exigências de latência, throughput e profundidade de raciocínio também aumentam, levando a uma evolução arquitetural para uma rede de três camadas.
A primeira camada é a “camada de resposta rápida”, composta por chips de inferência com SRAM, oferecendo feedback de latência extremamente baixa; a segunda é a “camada de raciocínio lento”, que usa clusters de alta capacidade de throughput para tarefas complexas, com uma necessidade crescente de CPUs multi-core e multi-threading; a terceira é a “camada de memória”, representada pelo sistema ContextMemory da Nvidia, que gerencia a memória de longo prazo e o cache de chaves-valor (KV) através do DPU Bluefield4, usando armazenamento SSD.
A Nvidia também está a ajustar a sua estratégia de hardware. A prática anterior de combinar CPUs Vera com GPUs Rubin foi considerada demasiado dispendiosa para cargas de trabalho específicas de agentes de IA. Recentemente, a Nvidia anunciou a expansão da colaboração com a Meta Platforms, realizando a primeira implantação em larga escala de CPUs puras para suportar agentes de IA de publicidade direcionada, marcando uma mudança na sua estratégia de vendas de GPU única.
Avanços na aceleração de poder de cálculo nacional
--------
A pesquisa da Shenwan Hongyuan destaca que a evolução tecnológica dos chips de inferência nacionais merece atenção especial, dado que há expectativas de mercado diferentes.
Tecnicamente, os novos chips nacionais de inferência apresentam melhorias fundamentais, incluindo suporte a formatos de dados de baixa precisão como FP8/MXFP8/MXFP4, atingindo 1P e 2P de poder de cálculo; aumento significativo na capacidade vetorial, com uma nova arquitetura suportando modelos de programação SIMD/SIMT; e uma largura de banda de interconexão 2,5 vezes maior, atingindo 2TB/s.
De particular interesse é a implementação de separação de PD nos chips: usando duas versões de HBM de diferentes especificações, uma para pré-preenchimento (PR) e recomendação, e outra para decodificação e treino (DT). A versão PR usa HBM de baixo custo, reduzindo significativamente o investimento na fase de pré-preenchimento, com lançamento previsto para o primeiro trimestre de 2026.
No nível da cadeia de abastecimento, os avanços de fabricantes nacionais de encapsulamento e teste também corroboram este progresso. Segundo uma resposta de consulta de uma grande empresa de encapsulamento, a receita do seu negócio de encapsulamento 2.5D, principalmente de chips de alta performance, cresceu de 0,5 milhões de yuan em 2022 para 1,82 mil milhões de yuan em 2024, confirmando a contínua melhoria na capacidade de fornecimento de chips de poder de cálculo nacionais e acelerando a sua industrialização.