Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas extras
O caminho de 10 trilhões de dólares do DeepSeek: impulsionando o ecossistema de hardware de trilhões com código aberto
Nota do editor: No último ano, as discussões em torno da DeepSeek se concentraram principalmente no desempenho do modelo, estratégia de código aberto e guerra de preços. Mas, se entender a DeepSeek apenas como uma questão de "vender ou não assinaturas", "ter multimodalidade" ou "fazer um agente de codificação", pode-se subestimar o que ela realmente deseja mudar.
Este artigo apresenta um julgamento mais radical: o objetivo da DeepSeek talvez não seja monetizar a curto prazo através da camada de aplicação, mas, por meio de uma série de inovações na arquitetura de base, reformular a estrutura de custos do treinamento e inferência de IA, e indiretamente impulsionar a formação de um novo ecossistema de hardware. De MoE, MLA até DSA, CSA, mHC, Engram, passando por Dual Path e TileLang, a trajetória tecnológica da DeepSeek sempre gira em torno de uma questão central: diante de limitações em HBM, processos avançados, empacotamento e ecossistema CUDA, como rodar modelos mais poderosos com menos poder de cálculo de ponta?
O aspecto mais interessante do artigo não é se a DeepSeek pode ganhar bilhões de dólares com API ou assinaturas, mas se ela está realmente vinculando capacidades de modelos, sistemas de memória e o ecossistema de hardware doméstico. A compressão do KV Cache reduz a dependência de HBM, NAND e SSD podem suportar cache de longo prazo, LPDDR pode ser usada para carregamento em fluxo de pesos e armazenamento de Engram, e TileLang tenta enfraquecer a barreira do CUDA. Se essas inovações continuarem a se espalhar, os beneficiários não serão apenas a própria DeepSeek, mas também armazenamento, ASICs, GPUs, chips de rede e toda a cadeia de infraestrutura de IA.
Claro, as avaliações sobre "um ecossistema de 10 trilhões de dólares" e "uma avaliação de 1 trilhão de dólares" ainda carregam forte tom de especulação. Mas oferecem uma via importante para entender a DeepSeek: abrir código não significa necessariamente abandonar a comercialização, e preços baixos não são apenas subsídios ao mercado. Para a DeepSeek, o verdadeiro negócio pode não estar na camada de aplicação, mas em ajudar a tornar mais acessível o hardware, possibilitando uma oferta de IA de menor custo. Em outras palavras, ela talvez não venda o modelo em si, mas a viabilidade da próxima geração de infraestrutura de IA.
A seguir, o texto original:
Você já pensou em como a DeepSeek realmente vai ganhar dinheiro, e talvez muito dinheiro?
Ela não lançou um plano de assinatura de programação competitivo como GLM, MoonShot ou MiniMax; também não possui multimodalidade, modelos de áudio ou vídeo. Até agora, ela nem tem seu próprio harness, ou seja, uma estrutura de execução externa para chamadas de modelos, integração de ferramentas e execução de tarefas — embora recentemente tenham começado a contratar para montar esse sistema.
Ao mesmo tempo, a DeepSeek parece manter uma posição firme no código aberto, até mesmo compartilhando abertamente seus "segredos". Isso não é loucura? Não seria um desperdício de dinheiro? Aquelas pessoas que estão dispostas a investir 100 bilhões de dólares nela, estão jogando dinheiro no ralo?
Na minha opinião, exatamente o contrário.
A seguir, apresentarei algumas observações baseadas no que a DeepSeek já fez até agora, e analisarei uma estratégia que parece estar seguindo. O objetivo do CEO da DeepSeek, Liang Wenfeng, pode ir muito além da competição por modelos. Talvez ele esteja mirando um prêmio maior: a DeepSeek tem a chance de atingir uma avaliação de 1 trilhão de dólares, ao mesmo tempo em que impulsiona a formação de uma nova indústria de 10 trilhões de dólares.
Revisitando a "Jornada do Herói" da DeepSeek
A DeepSeek sempre enfrentou ventos contrários. Ela não optou por lançar modelos ligeiramente melhores e empacotá-los como aplicações de monetização direta, como planos de assinatura de programação. Em 27 de janeiro de 2025, publiquei um tweet bastante difundido, contando a "Jornada do Herói" que vejo na DeepSeek. Agora, essa história ficou ainda mais interessante.
Enquanto outros ainda tentam construir modelos densos, a DeepSeek escolheu um caminho mais difícil: o de modelos especialistas híbridos (Mixture of Experts, MoE).
Eles adotaram uma abordagem de "primeiro princípio", inventando um novo algoritmo chamado GRPO, para substituir o então popular, mas mais caro, algoritmo de reforço PPO.
Descobriram que o reforço baseado em recompensas verificadas (Reinforcement Learning from Verified Rewards, RLVR) é a estratégia-chave para melhorar a capacidade de inferência do modelo.
Também propuseram uma estratégia de decodificação simples chamada "Multi Token Prediction", que torna o sinal de treinamento mais denso.
Aprimoraram a linha de produção "Zero Bubble" para melhorar a eficiência do uso de recursos limitados de GPU.
Lançaram um balanceador de carga de especialistas, facilitando a implantação de modelos MoE. Especialmente com a estratégia de "Wide Expert Parallel", o modelo pode atender em batch maior, reduzindo drasticamente o custo de inferência.
Inventaram mecanismos como MLA, DSA, CSA, HCA, que reduzem a necessidade de KV Cache, mantendo o aumento de cálculo com o crescimento do comprimento do contexto o mais próximo possível de constante.
Criaram o Engram, trocando memória por eficiência de cálculo.
E também desenvolveram o mHC, que permite treinar modelos de grande escala de forma estável. Existem muitos outros exemplos semelhantes.
Na narrativa do "Jornada do Herói", o herói nunca decide de início para onde sua jornada o levará. Ele aprende ao longo do caminho, descobrindo sua verdadeira missão, superando obstáculos. Enfrenta céticos, malfeitores, tem falhas e limitações, mas consegue vencê-los e cumprir seu destino. Encontra alianças, aprende a usar recursos escassos de forma inteligente. É essa trajetória que faz o público torcer por ele. E é por isso que a DeepSeek conquista seguidores, respeito global e também opositores.
Como detalharei a seguir, a DeepSeek já percorreu esse caminho há bastante tempo, e vem descobrindo seu destino final: seu objetivo não é vender assinaturas de programação, mas impulsionar um ecossistema de hardware de IA de 10 trilhões de dólares na China, e alcançar uma avaliação de 1 trilhão de dólares. Nesse processo, ela também criará oportunidades para novos entrantes no ecossistema de hardware ocidental.
Começando por alguns cálculos interessantes de KV Cache
Veja o tweet recente do @SemiAnalysis_ que é bastante oportuno:
A DeepSeek já resolveu esse problema melhor do que ninguém!
Vamos fazer um cálculo interessante de KV Cache. Não se preocupe, mesmo que você não goste de matemática, podemos usar o calculador de KV Cache recém-lançado para ver quanto a DeepSeek V4 Pro consegue economizar de KV Cache, comparando com os modelos mais recentes GLM e Qwen.
Farei o cálculo considerando um contexto de cerca de 1 milhão de tokens, assumindo precisão de KV de 8 bits e de indexador de 16 bits. Você também pode experimentar o calculador por si mesmo: https://kvcache.ai/tools/kv-cache-calculator/
Para um contexto de 1 milhão de tokens:
· DeepSeek V4 precisa de apenas 5,48 GB de HBM;
· GLM-5 necessita de 60 GB de HBM;
· Qwen3-235B-A22B chega a precisar de até 89 GB de HBM.
É importante notar que:
· DeepSeek é um modelo de 1,6 trilhão de parâmetros;
· GLM-5 tem cerca de 700 bilhões de parâmetros, já usando MLA e DSA do DeepSeek, embora ainda não com a mais recente atenção comprimida;
· Qwen3-235B-A22B tem aproximadamente 235 bilhões de parâmetros, usando atenção GQA.
A contribuição da DeepSeek na redução de memória já é fundamental. Se essas inovações forem amplamente adotadas, reduzirão drasticamente o custo de operação de agentes de longo ciclo e desbloquearão novos cenários de aplicação.
A metodologia por trás da "loucura"
A razão de o KV Cache poder ser tão pequeno, sem sacrificar a qualidade do modelo, é que a DeepSeek consegue oferecer cache de longo prazo a um custo extremamente baixo — seu preço é inferior a 3% do custo de cache hit do Sonnet 4.6, e ela pode manter o cache por horas.
Para tarefas de longo ciclo, um KV Cache menor significa que é mais econômico descarregá-lo para SSD e recarregá-lo quando necessário. Assim, a dependência de HBM diminui. Do ponto de vista da indústria de hardware de IA na China, o HBM não só é escasso, como também uma das memórias mais difíceis de fabricar.
Além disso, a DeepSeek desenvolveu tecnologia para carregar KV Cache do SSD de forma mais rápida, já descrita em seu artigo sobre Dual Path.
A compressão do KV Cache na DeepSeek V4 é tão significativa que talvez essa etapa nem precise mais ser feita.
Quem se beneficia mais diretamente da compressão do KV Cache?
Quem fornece SSD em larga escala? Não se esqueça, a YMTC (Yangtze Memory Technologies) está se tornando uma gigante no setor de NAND 3D. NAND ajuda a evitar cálculos repetidos de KV, e, por outro lado, a DeepSeek cria um enorme mercado para NAND e SSD — beneficiando não só a YMTC, mas também outros fabricantes relacionados.
Mas não é só NAND e SSD.
A memória LPDDR também tem potencial enorme. Pode armazenar pesos de modelos e, quando necessário, transmiti-los em fluxo para o HBM, aliviando a pressão sobre este. A equipe do SGLang publicou um excelente blog explicando esse conceito. A imagem abaixo mostra como essa solução funciona.
Embora a DeepSeek não tenha feito um design específico para essa abordagem, sua arquitetura MoE, com muitos especialistas e pesos de 4 bits, facilita sua implementação.
Se essa inovação for combinada com KV Cache extremamente compacto e sem perdas, a demanda por HBM será significativamente reduzida.
Quem na China produz LPDDR? A resposta é a CXMT, ou seja, a Changxin Memory Technologies. Eles estão cerca de meia geração atrás em velocidade de LPDDR e uma geração atrás em densidade, mas a diferença não é grande.
Além de NAND suficiente, o ecossistema de IA na China também terá acesso a LPDDR suficiente em breve. Isso pode aliviar a pressão de cálculo? A resposta é: sim. Continue lendo.
Memória inteligente também pode aliviar a pressão sobre GPUs / ASICs
Usar NAND para armazenar KV Cache é relativamente simples de entender: permite manter o KV Cache por mais tempo, reduzindo a pressão sobre o HBM, além de evitar cálculos repetidos de KV, aliviando a carga de GPUs e ASICs.
E a LPDDR, pode ela atuar de forma semelhante? Além de servir como armazenamento "on-demand" para transmitir pesos ao HBM, ela pode reduzir ainda mais a carga de cálculo?
A resposta é: sim.
LPDDR pode armazenar uma grande quantidade de conteúdo chamado Engram. No artigo da DeepSeek sobre Engram, eles apontam que MoE pode expandir a capacidade do modelo por cálculo condicional, mas o Transformer, por si só, carece de um mecanismo nativo de "busca de conhecimento". Assim, ele precisa simular ineficientemente esse processo por cálculo.
Para resolver isso, a DeepSeek propôs o módulo Engram. Ele moderniza o clássico embedding N-gram, transformando-o em uma busca baseada em hash O(1), criando uma via esparsa complementar, chamada memória condicional.
Esse método economiza cálculo, mas requer memória para abrigar a tabela de embedding, que pode ser muito grande.
Basicamente, é uma estratégia de "troca de memória por cálculo". A grande sacada é que, do ponto de vista do custo de leitura de cada bit de dado, a memória é muito mais barata — uma busca em LPDDR é muito mais econômica do que passar os dados por várias camadas de Transformer para uma inferência completa. Portanto, em cenários de grande escala, essa troca é altamente vantajosa.
Assim, a DeepSeek consegue sacrificar parte da memória para economizar cálculo.
Decisões de trade-off importantes
Sem transistores de chip na mesma escala, sem tecnologia EUV, os GPUs e ASICs chineses provavelmente ficarão por muito tempo atrás dos ocidentais em FLOPs brutos. Ainda há uma grande disparidade em empacotamento avançado. Portanto, essas escolhas valem muito a pena, especialmente considerando a capacidade de produção massiva de NAND e LPDDR na China.
Revisando a estratégia de longo prazo da DeepSeek
Com base nessas inovações, parece que o objetivo da DeepSeek não é obter lucros de alguns bilhões de dólares agora. Muitas de suas escolhas até aqui indicam isso: ela ainda não possui multimodalidade, nem modelos de voz ou vídeo.
O que ela realmente participa é de um jogo de longo prazo, paciente, com potencial de atingir 10 trilhões de dólares: impulsionar a formação de um ecossistema de hardware de IA alternativo.
Isso não é só para fazer com que fabricantes chineses de memória se tornem atores-chave no mercado de hardware de IA na China e globalmente, mas também para reduzir fundamentalmente os recursos necessários, tornando o treinamento e o serviço de modelos de IA mais econômicos. Assim, muitos fabricantes de GPUs, ASICs e chips de rede terão opções viáveis.
Ao mesmo tempo, essas inovações beneficiarão também o ecossistema de código aberto ocidental e novos fabricantes de hardware.
Todos esses sinais já estão presentes. Vamos revisar detalhadamente as inovações que a DeepSeek propôs até agora:
Na versão V2, a DeepSeek introduziu MoE e MLA. MoE reduziu em cerca de 40% a 50% o cálculo necessário para treinar modelos de alta inteligência; MLA reduziu em 90% o KV Cache.
Isso tornou a descarregabilidade do KV Cache para SSD bastante eficiente.
Essas ideias surgiram inicialmente no artigo da DeepSeek de maio de 2024, que também serviu de base para o treinamento do DeepSeek V3. Na época, a DeepSeek treinou um sistema com apenas 2048 GPUs H800, com desempenho próximo ao de modelos fechados.
O papel do DSA é garantir que o volume de cálculo não cresça com o aumento do comprimento do contexto. Veja o gráfico: à medida que o contexto aumenta, o tempo de processamento do DeepSeek V3.2 permanece praticamente estável.
O mHC é uma inovação na arquitetura macro do DeepSeek, redesenhando o fluxo de informações entre camadas do Transformer.
Tradicionalmente, desde ResNet, os modelos usam conexões residuais padrão, ou seja, x + F(x). O mHC expande esse fluxo para múltiplos canais paralelos, permitindo que o modelo aprenda a misturar esses canais. A matriz de mistura é restrita a uma matriz dupla aleatória, limitada ao poliedro de Birkhoff via projeção Sinkhorn-Knopp. Assim, matematicamente, garante-se que, independentemente da profundidade, a amplitude do sinal permaneça estável.
Isso resolve o problema de instabilidade catastrófica enfrentado por conexões hiperconectadas não restritas. Essas conexões foram propostas inicialmente pelo ByteDance, mas, sem restrições, o crescimento do sinal pode explodir, chegando a 3000 vezes em modelos de 270 bilhões de parâmetros, levando ao colapso do treinamento.
O custo computacional do mHC é baixo: cerca de 6,7% do tempo de treinamento real, pois não altera FLOPs de atenção ou FFN, apenas muda a rota de saída dessas camadas.
Por outro lado, o desempenho melhora significativamente: em 270 bilhões de parâmetros, o mHC aumenta em 7,2 pontos a performance no BIG-Bench Hard, 3,2 pontos no DROP, 2,8 pontos no GSM8K, e 1,4 ponto na MMLU, tudo na mesma escala de modelo e quase mesmo orçamento de cálculo.
Na essência, o mHC fornece uma topologia de roteamento de informações mais rica e expressiva entre camadas, alcançando maior inteligência por parâmetro, sem aumentar FLOPs.
CSA e HSA visam, por meio da compressão de tokens KV, reduzir em 90% a demanda por KV Cache, além de diminuir significativamente os FLOPs necessários, aliviando tanto a pressão no HBM quanto nos GPUs / ASICs.
Na figura detalhada abaixo, mostra-se que, com o mesmo orçamento de parâmetros, o Engram traz melhorias de desempenho evidentes.
Na mesma linha do item anterior, a figura mostra que, com o mesmo orçamento de parâmetros, o Engram melhora significativamente o desempenho.
Com TileLang, desenvolvedores podem escrever um único kernel — ou seja, o código de baixo nível para cálculo — e fazê-lo rodar em várias plataformas de hardware, desde que tenham suporte ao backend TileLang.
Prevejo que outros laboratórios chineses de IA também se juntem a essa iniciativa. Isso ajudará fabricantes chineses de hardware a enfrentarem indiretamente a chamada "barreira CUDA". Além disso, também potencializará o hardware ocidental, como a AMD.
Vale destacar que muitas plataformas chinesas de IA já oferecem compatibilidade com CUDA ou camadas de transpilação. Por exemplo, Moer, Muxi, Bairen e Tianshu Zhixin usam camadas de transpilação para alta compatibilidade com CUDA. Portanto, teoricamente, não precisariam de TileLang.
Aprendizado por reforço em larga escala e RSI
À medida que a DeepSeek obtém mais fontes de poder de cálculo, ou seja, mais hardware disponível, e à medida que a demanda por recursos computacionais diminui, ela pode avançar para projetos de treinamento mais ambiciosos, especialmente de reforço.
Reforço exige gerar muitas trajetórias, ou seja, trilhões de tokens. Esse processo se torna extremamente caro rapidamente. Além disso, para treinar modelos com contexto de 1 milhão de tokens, é preciso gerar trajetórias do mesmo comprimento. Somente treinando em trajetórias superlongas é possível suportar tarefas de longo ciclo.
Além disso, com mais opções de hardware, a DeepSeek terá mais recursos à disposição, impulsionando a pesquisa automatizada, ou RSI. RSI significa que a IA projeta e executa seus próprios experimentos. Essa abordagem envolve tentativa e erro, com custos crescentes. Mas é fundamental para explorar todo o espaço de design de modelos. Antes de alcançar AGI, e depois ASI, a DeepSeek precisa desenvolver capacidades de RSI.
O que a DeepSeek faz hoje, o setor todo fará amanhã
As inovações da DeepSeek em especialistas híbridos, MLA, DSA, entre outros, já estão sendo adotadas por outros laboratórios de IA ao redor do mundo, na China e além.
Por exemplo, a equipe por trás do modelo GLM, a ZAI, usa MLA e DSA. Kimi, do MoonShot, também adotou MLA e declarou abertamente que sua arquitetura é baseada na estrutura da DeepSeek. Por sua vez, a DeepSeek usa o otimizador Muon, que foi inicialmente utilizado pelo Kimi em treinamentos de grande escala.
Para finalizar, a questão de ganhar dinheiro:
Vamos olhar para um exemplo interessante: a OpenAI.
A OpenAI adquiriu opções de compra de ações de AMD e Cerebras a preços baixos, vinculadas a marcos de consumo de poder de cálculo. Para AMD e Cerebras, é um negócio muito vantajoso, pois, ao comprometerem-se a usar seus hardwares, aumentam suas chances de sucesso a longo prazo.
Na divulgação da AMD, há uma frase:
"Como parte do acordo, para alinhar ainda mais os interesses estratégicos, a AMD emitiu opções de compra de até 160 milhões de ações ordinárias da AMD, que serão adquiridas gradualmente conforme o cumprimento de marcos específicos. A primeira parcela será concedida na implantação inicial de 1 GW, e as demais à medida que a escala de aquisição atingir 6 GW. As condições de aquisição também dependem de metas de preço de ação específicas da AMD e do cumprimento de marcos tecnológicos e comerciais pela OpenAI."
Prevejo que a DeepSeek também firmará acordos semelhantes com várias fabricantes chinesas de memória, ASICs, CPUs e stacks de tecnologia de rede, colaborando profundamente para que esses hardwares possam suportar cargas de trabalho de ponta em IA.
Considerando que o valor de mercado de ações de IA ocidental, incluindo aliados do leste asiático, já ultrapassa 10 trilhões de dólares, essa estratégia de "obter retorno via participação acionária" pode ajudar a China a criar uma indústria igualmente gigante, garantindo sua fatia do bolo e, por fim, atingindo sua avaliação de 1 trilhão de dólares.
Isso não só permitirá que a DeepSeek ganhe muito mais do que com assinaturas tradicionais, mas também realize seu objetivo de "fazer a AGI beneficiar todos". Liang Wenfeng, fã de Jim Simons e um investidor inteligente, certamente não perderia essa oportunidade.
Se você olhar para tudo o que a DeepSeek já fez até agora, essa é a explicação mais coerente.
[Link do artigo original]
Clique para conhecer as vagas na BlockBeats
Participe do grupo oficial da BlockBeats no Telegram:
Inscrição no Telegram: https://t.me/theblockbeats
Grupo de discussão no Telegram: https://t.me/BlockBeats_App
Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia