Nota do editor: No último ano, as discussões em torno da DeepSeek se concentraram principalmente no desempenho do modelo, estratégia de código aberto e guerra de preços. Mas, se entender a DeepSeek apenas como uma questão de "vender ou não assinaturas", "ter multimodalidade" ou "fazer um agente de codificação", pode-se subestimar o que ela realmente deseja mudar.

Este artigo apresenta um julgamento mais radical: o objetivo da DeepSeek talvez não seja monetizar a curto prazo através da camada de aplicação, mas, por meio de uma série de inovações na arquitetura de base, reformular a estrutura de custos do treinamento e inferência de IA, e indiretamente impulsionar a formação de um novo ecossistema de hardware. De MoE, MLA até DSA, CSA, mHC, Engram, passando por Dual Path e TileLang, a trajetória tecnológica da DeepSeek sempre gira em torno de uma questão central: diante de limitações em HBM, processos avançados, empacotamento e ecossistema CUDA, como rodar modelos mais poderosos com menos poder de cálculo de ponta?

O aspecto mais interessante do artigo não é se a DeepSeek pode ganhar bilhões de dólares com API ou assinaturas, mas se ela está realmente vinculando capacidades de modelos, sistemas de memória e o ecossistema de hardware doméstico. A compressão do KV Cache reduz a dependência de HBM, NAND e SSD podem suportar cache de longo prazo, LPDDR pode ser usada para carregamento em fluxo de pesos e armazenamento de Engram, e TileLang tenta enfraquecer a barreira do CUDA. Se essas inovações continuarem a se espalhar, os beneficiários não serão apenas a própria DeepSeek, mas também armazenamento, ASICs, GPUs, chips de rede e toda a cadeia de infraestrutura de IA.

Claro, as avaliações sobre "um ecossistema de 10 trilhões de dólares" e "uma avaliação de 1 trilhão de dólares" ainda carregam forte tom de especulação. Mas oferecem uma via importante para entender a DeepSeek: abrir código não significa necessariamente abandonar a comercialização, e preços baixos não são apenas subsídios ao mercado. Para a DeepSeek, o verdadeiro negócio pode não estar na camada de aplicação, mas em ajudar a tornar mais acessível o hardware, possibilitando uma oferta de IA de menor custo. Em outras palavras, ela talvez não venda o modelo em si, mas a viabilidade da próxima geração de infraestrutura de IA.

A seguir, o texto original:

Você já pensou em como a DeepSeek realmente vai ganhar dinheiro, e talvez muito dinheiro?

Ela não lançou um plano de assinatura de programação competitivo como GLM, MoonShot ou MiniMax; também não possui multimodalidade, modelos de áudio ou vídeo. Até agora, ela nem tem seu próprio harness, ou seja, uma estrutura de execução externa para chamadas de modelos, integração de ferramentas e execução de tarefas — embora recentemente tenham começado a contratar para montar esse sistema.

Ao mesmo tempo, a DeepSeek parece manter uma posição firme no código aberto, até mesmo compartilhando abertamente seus "segredos". Isso não é loucura? Não seria um desperdício de dinheiro? Aquelas pessoas que estão dispostas a investir 100 bilhões de dólares nela, estão jogando dinheiro no ralo?

Na minha opinião, exatamente o contrário.

A seguir, apresentarei algumas observações baseadas no que a DeepSeek já fez até agora, e analisarei uma estratégia que parece estar seguindo. O objetivo do CEO da DeepSeek, Liang Wenfeng, pode ir muito além da competição por modelos. Talvez ele esteja mirando um prêmio maior: a DeepSeek tem a chance de atingir uma avaliação de 1 trilhão de dólares, ao mesmo tempo em que impulsiona a formação de uma nova indústria de 10 trilhões de dólares.

Reportagem do TechInAsia sobre a última rodada de financiamento da DeepSeek

Revisitando a "Jornada do Herói" da DeepSeek

A DeepSeek sempre enfrentou ventos contrários. Ela não optou por lançar modelos ligeiramente melhores e empacotá-los como aplicações de monetização direta, como planos de assinatura de programação. Em 27 de janeiro de 2025, publiquei um tweet bastante difundido, contando a "Jornada do Herói" que vejo na DeepSeek. Agora, essa história ficou ainda mais interessante.

Enquanto outros ainda tentam construir modelos densos, a DeepSeek escolheu um caminho mais difícil: o de modelos especialistas híbridos (Mixture of Experts, MoE).

Eles adotaram uma abordagem de "primeiro princípio", inventando um novo algoritmo chamado GRPO, para substituir o então popular, mas mais caro, algoritmo de reforço PPO.

Descobriram que o reforço baseado em recompensas verificadas (Reinforcement Learning from Verified Rewards, RLVR) é a estratégia-chave para melhorar a capacidade de inferência do modelo.

Também propuseram uma estratégia de decodificação simples chamada "Multi Token Prediction", que torna o sinal de treinamento mais denso.

Aprimoraram a linha de produção "Zero Bubble" para melhorar a eficiência do uso de recursos limitados de GPU.

Lançaram um balanceador de carga de especialistas, facilitando a implantação de modelos MoE. Especialmente com a estratégia de "Wide Expert Parallel", o modelo pode atender em batch maior, reduzindo drasticamente o custo de inferência.

Inventaram mecanismos como MLA, DSA, CSA, HCA, que reduzem a necessidade de KV Cache, mantendo o aumento de cálculo com o crescimento do comprimento do contexto o mais próximo possível de constante.

Criaram o Engram, trocando memória por eficiência de cálculo.

E também desenvolveram o mHC, que permite treinar modelos de grande escala de forma estável. Existem muitos outros exemplos semelhantes.

Na narrativa do "Jornada do Herói", o herói nunca decide de início para onde sua jornada o levará. Ele aprende ao longo do caminho, descobrindo sua verdadeira missão, superando obstáculos. Enfrenta céticos, malfeitores, tem falhas e limitações, mas consegue vencê-los e cumprir seu destino. Encontra alianças, aprende a usar recursos escassos de forma inteligente. É essa trajetória que faz o público torcer por ele. E é por isso que a DeepSeek conquista seguidores, respeito global e também opositores.

Como detalharei a seguir, a DeepSeek já percorreu esse caminho há bastante tempo, e vem descobrindo seu destino final: seu objetivo não é vender assinaturas de programação, mas impulsionar um ecossistema de hardware de IA de 10 trilhões de dólares na China, e alcançar uma avaliação de 1 trilhão de dólares. Nesse processo, ela também criará oportunidades para novos entrantes no ecossistema de hardware ocidental.

Começando por alguns cálculos interessantes de KV Cache

Veja o tweet recente do @SemiAnalysis_ que é bastante oportuno:

A DeepSeek já resolveu esse problema melhor do que ninguém!

Vamos fazer um cálculo interessante de KV Cache. Não se preocupe, mesmo que você não goste de matemática, podemos usar o calculador de KV Cache recém-lançado para ver quanto a DeepSeek V4 Pro consegue economizar de KV Cache, comparando com os modelos mais recentes GLM e Qwen.

Farei o cálculo considerando um contexto de cerca de 1 milhão de tokens, assumindo precisão de KV de 8 bits e de indexador de 16 bits. Você também pode experimentar o calculador por si mesmo: https://kvcache.ai/tools/kv-cache-calculator/

Você também pode experimentar o calculador por si mesmo!

Para um contexto de 1 milhão de tokens:

· DeepSeek V4 precisa de apenas 5,48 GB de HBM;
· GLM-5 necessita de 60 GB de HBM;
· Qwen3-235B-A22B chega a precisar de até 89 GB de HBM.

É importante notar que:

· DeepSeek é um modelo de 1,6 trilhão de parâmetros;
· GLM-5 tem cerca de 700 bilhões de parâmetros, já usando MLA e DSA do DeepSeek, embora ainda não com a mais recente atenção comprimida;
· Qwen3-235B-A22B tem aproximadamente 235 bilhões de parâmetros, usando atenção GQA.

A contribuição da DeepSeek na redução de memória já é fundamental. Se essas inovações forem amplamente adotadas, reduzirão drasticamente o custo de operação de agentes de longo ciclo e desbloquearão novos cenários de aplicação.

Comparativo de KV Cache em contextos de 1 milhão de tokens e diferentes tamanhos de modelo

A metodologia por trás da "loucura"

A razão de o KV Cache poder ser tão pequeno, sem sacrificar a qualidade do modelo, é que a DeepSeek consegue oferecer cache de longo prazo a um custo extremamente baixo — seu preço é inferior a 3% do custo de cache hit do Sonnet 4.6, e ela pode manter o cache por horas.

Para tarefas de longo ciclo, um KV Cache menor significa que é mais econômico descarregá-lo para SSD e recarregá-lo quando necessário. Assim, a dependência de HBM diminui. Do ponto de vista da indústria de hardware de IA na China, o HBM não só é escasso, como também uma das memórias mais difíceis de fabricar.

Além disso, a DeepSeek desenvolveu tecnologia para carregar KV Cache do SSD de forma mais rápida, já descrita em seu artigo sobre Dual Path.

A compressão do KV Cache na DeepSeek V4 é tão significativa que talvez essa etapa nem precise mais ser feita.

Quem se beneficia mais diretamente da compressão do KV Cache?

Quem fornece SSD em larga escala? Não se esqueça, a YMTC (Yangtze Memory Technologies) está se tornando uma gigante no setor de NAND 3D. NAND ajuda a evitar cálculos repetidos de KV, e, por outro lado, a DeepSeek cria um enorme mercado para NAND e SSD — beneficiando não só a YMTC, mas também outros fabricantes relacionados.

Mas não é só NAND e SSD.

A memória LPDDR também tem potencial enorme. Pode armazenar pesos de modelos e, quando necessário, transmiti-los em fluxo para o HBM, aliviando a pressão sobre este. A equipe do SGLang publicou um excelente blog explicando esse conceito. A imagem abaixo mostra como essa solução funciona.

Embora a DeepSeek não tenha feito um design específico para essa abordagem, sua arquitetura MoE, com muitos especialistas e pesos de 4 bits, facilita sua implementação.

A imagem mostra como a memória pode ser usada e como os pesos do modelo podem ser transmitidos em fluxo do LPDDR para o HBM. Recomendo fortemente a leitura do blog do SGLang.

Se essa inovação for combinada com KV Cache extremamente compacto e sem perdas, a demanda por HBM será significativamente reduzida.

Quem na China produz LPDDR? A resposta é a CXMT, ou seja, a Changxin Memory Technologies. Eles estão cerca de meia geração atrás em velocidade de LPDDR e uma geração atrás em densidade, mas a diferença não é grande.

Além de NAND suficiente, o ecossistema de IA na China também terá acesso a LPDDR suficiente em breve. Isso pode aliviar a pressão de cálculo? A resposta é: sim. Continue lendo.

Memória inteligente também pode aliviar a pressão sobre GPUs / ASICs

Usar NAND para armazenar KV Cache é relativamente simples de entender: permite manter o KV Cache por mais tempo, reduzindo a pressão sobre o HBM, além de evitar cálculos repetidos de KV, aliviando a carga de GPUs e ASICs.

E a LPDDR, pode ela atuar de forma semelhante? Além de servir como armazenamento "on-demand" para transmitir pesos ao HBM, ela pode reduzir ainda mais a carga de cálculo?

A resposta é: sim.

LPDDR pode armazenar uma grande quantidade de conteúdo chamado Engram. No artigo da DeepSeek sobre Engram, eles apontam que MoE pode expandir a capacidade do modelo por cálculo condicional, mas o Transformer, por si só, carece de um mecanismo nativo de "busca de conhecimento". Assim, ele precisa simular ineficientemente esse processo por cálculo.

Para resolver isso, a DeepSeek propôs o módulo Engram. Ele moderniza o clássico embedding N-gram, transformando-o em uma busca baseada em hash O(1), criando uma via esparsa complementar, chamada memória condicional.

Esse método economiza cálculo, mas requer memória para abrigar a tabela de embedding, que pode ser muito grande.

Basicamente, é uma estratégia de "troca de memória por cálculo". A grande sacada é que, do ponto de vista do custo de leitura de cada bit de dado, a memória é muito mais barata — uma busca em LPDDR é muito mais econômica do que passar os dados por várias camadas de Transformer para uma inferência completa. Portanto, em cenários de grande escala, essa troca é altamente vantajosa.

Assim, a DeepSeek consegue sacrificar parte da memória para economizar cálculo.

Decisões de trade-off importantes

Sem transistores de chip na mesma escala, sem tecnologia EUV, os GPUs e ASICs chineses provavelmente ficarão por muito tempo atrás dos ocidentais em FLOPs brutos. Ainda há uma grande disparidade em empacotamento avançado. Portanto, essas escolhas valem muito a pena, especialmente considerando a capacidade de produção massiva de NAND e LPDDR na China.

Revisando a estratégia de longo prazo da DeepSeek

Com base nessas inovações, parece que o objetivo da DeepSeek não é obter lucros de alguns bilhões de dólares agora. Muitas de suas escolhas até aqui indicam isso: ela ainda não possui multimodalidade, nem modelos de voz ou vídeo.

O que ela realmente participa é de um jogo de longo prazo, paciente, com potencial de atingir 10 trilhões de dólares: impulsionar a formação de um ecossistema de hardware de IA alternativo.

Isso não é só para fazer com que fabricantes chineses de memória se tornem atores-chave no mercado de hardware de IA na China e globalmente, mas também para reduzir fundamentalmente os recursos necessários, tornando o treinamento e o serviço de modelos de IA mais econômicos. Assim, muitos fabricantes de GPUs, ASICs e chips de rede terão opções viáveis.

Ao mesmo tempo, essas inovações beneficiarão também o ecossistema de código aberto ocidental e novos fabricantes de hardware.

Todos esses sinais já estão presentes. Vamos revisar detalhadamente as inovações que a DeepSeek propôs até agora:

Introdução do modelo híbrido de especialistas (MoE) e MLA na DeepSeek V2

Na versão V2, a DeepSeek introduziu MoE e MLA. MoE reduziu em cerca de 40% a 50% o cálculo necessário para treinar modelos de alta inteligência; MLA reduziu em 90% o KV Cache.

Isso tornou a descarregabilidade do KV Cache para SSD bastante eficiente.

Essas ideias surgiram inicialmente no artigo da DeepSeek de maio de 2024, que também serviu de base para o treinamento do DeepSeek V3. Na época, a DeepSeek treinou um sistema com apenas 2048 GPUs H800, com desempenho próximo ao de modelos fechados.

DSA: introduzido na versão V3.2 Exp, para reduzir o custo de cálculo em cenários de contexto longo, além de aliviar a pressão na largura de banda do HBM.

O papel do DSA é garantir que o volume de cálculo não cresça com o aumento do comprimento do contexto. Veja o gráfico: à medida que o contexto aumenta, o tempo de processamento do DeepSeek V3.2 permanece praticamente estável.

mHC: apresentado em dezembro de 2025, no artigo "mHC: Manifold-Constrained Hyper-Connections".

O mHC é uma inovação na arquitetura macro do DeepSeek, redesenhando o fluxo de informações entre camadas do Transformer.

Tradicionalmente, desde ResNet, os modelos usam conexões residuais padrão, ou seja, x + F(x). O mHC expande esse fluxo para múltiplos canais paralelos, permitindo que o modelo aprenda a misturar esses canais. A matriz de mistura é restrita a uma matriz dupla aleatória, limitada ao poliedro de Birkhoff via projeção Sinkhorn-Knopp. Assim, matematicamente, garante-se que, independentemente da profundidade, a amplitude do sinal permaneça estável.

Isso resolve o problema de instabilidade catastrófica enfrentado por conexões hiperconectadas não restritas. Essas conexões foram propostas inicialmente pelo ByteDance, mas, sem restrições, o crescimento do sinal pode explodir, chegando a 3000 vezes em modelos de 270 bilhões de parâmetros, levando ao colapso do treinamento.

O custo computacional do mHC é baixo: cerca de 6,7% do tempo de treinamento real, pois não altera FLOPs de atenção ou FFN, apenas muda a rota de saída dessas camadas.

Por outro lado, o desempenho melhora significativamente: em 270 bilhões de parâmetros, o mHC aumenta em 7,2 pontos a performance no BIG-Bench Hard, 3,2 pontos no DROP, 2,8 pontos no GSM8K, e 1,4 ponto na MMLU, tudo na mesma escala de modelo e quase mesmo orçamento de cálculo.

Na essência, o mHC fornece uma topologia de roteamento de informações mais rica e expressiva entre camadas, alcançando maior inteligência por parâmetro, sem aumentar FLOPs.

O mHC é uma arquitetura complexa, mas traz treinamentos mais estáveis e maior inteligência por parâmetro.

CSA, HSA: introduzidos na versão V4, em abril de 2026.

CSA e HSA visam, por meio da compressão de tokens KV, reduzir em 90% a demanda por KV Cache, além de diminuir significativamente os FLOPs necessários, aliviando tanto a pressão no HBM quanto nos GPUs / ASICs.

Engram: apresentado no primeiro trimestre de 2026, essencialmente usando memória (LPDDR) para trocar por eficiência de cálculo.

Na figura detalhada abaixo, mostra-se que, com o mesmo orçamento de parâmetros, o Engram traz melhorias de desempenho evidentes.

Engram: apresentado no primeiro trimestre de 2026, usando memória (LPDDR) para trocar por eficiência de cálculo.

Na mesma linha do item anterior, a figura mostra que, com o mesmo orçamento de parâmetros, o Engram melhora significativamente o desempenho.

Essa é uma recomendação da DeepSeek para fabricantes de hardware, compartilhada na versão V4 do artigo. Tenho certeza de que, em conversas presenciais, eles devem ter dado ainda mais feedbacks.

Investimento em TileLang também aponta na mesma direção: a DeepSeek não está apenas resolvendo seu gargalo de cálculo, mas impulsionando a capacidade do ecossistema de hardware chinês de competir com o ocidental.

Com TileLang, desenvolvedores podem escrever um único kernel — ou seja, o código de baixo nível para cálculo — e fazê-lo rodar em várias plataformas de hardware, desde que tenham suporte ao backend TileLang.

Prevejo que outros laboratórios chineses de IA também se juntem a essa iniciativa. Isso ajudará fabricantes chineses de hardware a enfrentarem indiretamente a chamada "barreira CUDA". Além disso, também potencializará o hardware ocidental, como a AMD.

Vale destacar que muitas plataformas chinesas de IA já oferecem compatibilidade com CUDA ou camadas de transpilação. Por exemplo, Moer, Muxi, Bairen e Tianshu Zhixin usam camadas de transpilação para alta compatibilidade com CUDA. Portanto, teoricamente, não precisariam de TileLang.

Aprendizado por reforço em larga escala e RSI

À medida que a DeepSeek obtém mais fontes de poder de cálculo, ou seja, mais hardware disponível, e à medida que a demanda por recursos computacionais diminui, ela pode avançar para projetos de treinamento mais ambiciosos, especialmente de reforço.

Reforço exige gerar muitas trajetórias, ou seja, trilhões de tokens. Esse processo se torna extremamente caro rapidamente. Além disso, para treinar modelos com contexto de 1 milhão de tokens, é preciso gerar trajetórias do mesmo comprimento. Somente treinando em trajetórias superlongas é possível suportar tarefas de longo ciclo.

Além disso, com mais opções de hardware, a DeepSeek terá mais recursos à disposição, impulsionando a pesquisa automatizada, ou RSI. RSI significa que a IA projeta e executa seus próprios experimentos. Essa abordagem envolve tentativa e erro, com custos crescentes. Mas é fundamental para explorar todo o espaço de design de modelos. Antes de alcançar AGI, e depois ASI, a DeepSeek precisa desenvolver capacidades de RSI.

O que a DeepSeek faz hoje, o setor todo fará amanhã

As inovações da DeepSeek em especialistas híbridos, MLA, DSA, entre outros, já estão sendo adotadas por outros laboratórios de IA ao redor do mundo, na China e além.

Por exemplo, a equipe por trás do modelo GLM, a ZAI, usa MLA e DSA. Kimi, do MoonShot, também adotou MLA e declarou abertamente que sua arquitetura é baseada na estrutura da DeepSeek. Por sua vez, a DeepSeek usa o otimizador Muon, que foi inicialmente utilizado pelo Kimi em treinamentos de grande escala.

Para finalizar, a questão de ganhar dinheiro:

Vamos olhar para um exemplo interessante: a OpenAI.

A OpenAI adquiriu opções de compra de ações de AMD e Cerebras a preços baixos, vinculadas a marcos de consumo de poder de cálculo. Para AMD e Cerebras, é um negócio muito vantajoso, pois, ao comprometerem-se a usar seus hardwares, aumentam suas chances de sucesso a longo prazo.

Na divulgação da AMD, há uma frase:

"Como parte do acordo, para alinhar ainda mais os interesses estratégicos, a AMD emitiu opções de compra de até 160 milhões de ações ordinárias da AMD, que serão adquiridas gradualmente conforme o cumprimento de marcos específicos. A primeira parcela será concedida na implantação inicial de 1 GW, e as demais à medida que a escala de aquisição atingir 6 GW. As condições de aquisição também dependem de metas de preço de ação específicas da AMD e do cumprimento de marcos tecnológicos e comerciais pela OpenAI."

Prevejo que a DeepSeek também firmará acordos semelhantes com várias fabricantes chinesas de memória, ASICs, CPUs e stacks de tecnologia de rede, colaborando profundamente para que esses hardwares possam suportar cargas de trabalho de ponta em IA.

Considerando que o valor de mercado de ações de IA ocidental, incluindo aliados do leste asiático, já ultrapassa 10 trilhões de dólares, essa estratégia de "obter retorno via participação acionária" pode ajudar a China a criar uma indústria igualmente gigante, garantindo sua fatia do bolo e, por fim, atingindo sua avaliação de 1 trilhão de dólares.

Isso não só permitirá que a DeepSeek ganhe muito mais do que com assinaturas tradicionais, mas também realize seu objetivo de "fazer a AGI beneficiar todos". Liang Wenfeng, fã de Jim Simons e um investidor inteligente, certamente não perderia essa oportunidade.

Se você olhar para tudo o que a DeepSeek já fez até agora, essa é a explicação mais coerente.

Essas são as ações-chave no mercado de ações de IA. Os hyperscalers, ou seja, os gigantes do cloud, e muitas outras empresas relacionadas, ainda não estão incluídos na imagem.

[Link do artigo original]

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:

Inscrição no Telegram: https://t.me/theblockbeats

Grupo de discussão no Telegram: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

6 Curtidas

Recompensa
6
9
1
Compartilhar

Comentário

Adicionar um comentário

BlackGoldMechanicalHand

· 1h atrás

100 trilhões é uma meta de avaliação ou o tamanho da indústria? Estou um pouco confuso

Ver originalResponder0

GateUser-26374bb4

· 2h atrás

A guerra de preços até o fim, o vencedor leva tudo, é a infraestrutura

Ver originalResponder0

PaperSculptureSquidward

· 2h atrás

Finalmente, alguém saiu do modelo de avaliação para analisar a questão.

Ver originalResponder0

GateUser-34d2b0ab

· 2h atrás

Se realmente pudéssemos reformular a base, então essas aplicações seriam demandas falsas.

Ver originalResponder0

SlippageSailor

· 2h atrás

Se essa afirmação for verdadeira, então todos que estão comprando tokens agora estão ajudando ela a treinar suas forças.

Ver originalResponder0

GlitchOrchard

· 2h atrás

Esse ângulo é bem interessante, na verdade eu só olhei para a camada de aplicação antes.

Ver originalResponder0

ThetaSideEye

· 2h atrás

Aguarde o texto completo, essa introdução do editor realmente sabe como criar expectativa.

Ver originalResponder0

SushiSlippage

· 2h atrás

Peggy compilado? A qualidade do BlockBeats tem sido consistente

Ver originalResponder0

ExitLiquidityBuddy

· 2h atrás

Parece que as grandes empresas nacionais estão seguindo esse caminho, a DeepSeek está avançando mais rápido

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
TradfiTradingChallenge
369.46K Popularidade
#
USIranDraftDeal
281.13K Popularidade
#
IsraelStrikesIranBTCPlunges
49.13K Popularidade
#
#DailyPolymarketHotspot
1.06M Popularidade
#
HYPEMarketCapSurpassesDOGE
12.63M Popularidade

Fixado

sitemap

O caminho de 10 trilhões de dólares do DeepSeek: impulsionando o ecossistema de hardware de trilhões com código aberto

Revisitando a "Jornada do Herói" da DeepSeek

Começando por alguns cálculos interessantes de KV Cache

A metodologia por trás da "loucura"

Quem se beneficia mais diretamente da compressão do KV Cache?

Memória inteligente também pode aliviar a pressão sobre GPUs / ASICs

Decisões de trade-off importantes

Revisando a estratégia de longo prazo da DeepSeek

Aprendizado por reforço em larga escala e RSI

O que a DeepSeek faz hoje, o setor todo fará amanhã

Para finalizar, a questão de ganhar dinheiro:

Tendências

TradfiTradingChallenge

USIranDraftDeal

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

HYPEMarketCapSurpassesDOGE

Fixado