As pessoas sentem falta do DeepSeek

问 AI · DeepSeek 为什么成为降本增效的象征?

A imagem poderá ter sido gerada por IA, a “camarão-ao-queijo de ferro” alimentado com tokens. A imagem foi gerada por IA

Da autoria de丨Su Yang

Edição丨Xu Qingyang

Recentemente, a conversa sobre tokens tem sido bastante surreal.

Nos feeds sociais, dá para ver discussões sobre a tradução de Token em todo o lado — há “unidades de token”, “sábios tokens” e até versões cómicas como “raiz de talento”.

Token não é um conceito novo. Desde o primeiro dia em que os grandes modelos foram colocados em prática, ele coexistiu com redes neuronais; mas só até OpenClaw (vulgarmente chamado “camarão-ao-queijo”) se ter difundido em larga escala pela comunidade de utilizadores é que várias aplicações de agentes começaram a trazer os tokens para o olhar do público.

A meu ver, há dois problemas-chave: o consumo é demasiado elevado e o preço é demasiado caro.

Lembro-me de quando a OpenAI lançou o GPT-5.4. Houve utilizadores que reportaram que testar apenas uma frase “olá” consumia 80 dólares em tokens. Na altura, muita gente dizia que era exagerado, mas, com a difusão em larga escala do grande camarão-ao-queijo na comunidade, passou a ser normal um único trabalho consumir dezenas de milhões de tokens.

Em contraste, o CEO da Nvidia, Huang Renxun, em várias ocasiões durante a conferência GTC2026 e depois, tem insistido em que os engenheiros devem usar tokens em grande quantidade, chegando mesmo a incluir os tokens nos mecanismos de incentivo de remuneração.

Numa sessão de conversas, Huang Renxun disse: “Se um engenheiro com um salário anual de 500 mil dólares não tiver usado nem 250 mil dólares em tokens, eu ficaria extremamente apreensivo.”

O problema é: será que queimar tokens freneticamente resolve mesmo o problema? Quantos tokens são efetivamente úteis? E que tipo de relação entre investimento e retorno é razoável?

Combinando as notícias da imprensa internacional agora mesmo: há um programador da OpenAI que queimou 210 mil milhões de tokens numa semana. Isso corresponde a 33 enciclopédias Wikipedia. Mas, com um consumo destes, afinal que resultados acabaram por ser obtidos? Eu publiquei num feed social a pergunta “isto eleva o P10 com uso intensivo?”. Um amigo comentou imediatamente: “Se for para vender tokens, sobe o P10.”

É evidente que, nesta campanha de queimar tokens sem limites, é questionável quanto impacto ela traz, mas quem lucra é claro.

Huang Renxun descreveu a Nvidia como “o rei dos tokens”, com a máquina de fabrico de tokens mais avançada do mundo. Mas, se andarem a promover isto com insistência — e até a insinuar que, sem tokens, se vai ficar para trás — então pode-se dizer que: por um lado, Huang Renxun quer mudar completamente a lógica de “avaliação de eficiência” das empresas na era da IA; por outro lado, ele também criou indiretamente ansiedade em torno dos tokens.

01 Os tokens são demasiado caros

Não há muito tempo, perguntei a Zhou Hongyi sobre “os tokens são demasiado caros”. Ele disse: “A ideia de que os tokens são caros pode ter alguns mal-entendidos, porque o backend dos grandes modelos pode ser configurado de forma flexível.”

Na perspetiva dele, os utilizadores podem escolher por conta própria modelos para controlar os custos. “Os custos do diálogo quotidiano são realmente baixos. O que consome tokens de verdade são tarefas complexas, como ajudar-te a gerar vídeos, criar curtas ou escrever romances — cenários em que se fazem chamadas.”

Lembro-me de o CEO da Cheetah Mobile, Fu Sheng, ter dito num vídeo que, através de algumas técnicas de utilização, ele conseguiu otimizar as despesas de tokens diárias iniciais, de algumas centenas de dólares, para mais ou menos 10 e tal dólares por dia. Em 30 dias, dá 2100 yuan; a mensalidade anual é 25200 yuan.

Surge então a pergunta: quantos utilizadores conseguem suportar o custo de 10 dólares por dia?

Comparando com as atuais aplicações comerciais do tipo C na Internet chinesa, como Jianying (剪映), mesmo a adesão premium anual custa apenas cerca de 600 yuan. As despesas de subscrição relacionadas com entretenimento ficam, em geral, à volta de 300 yuan. Não se encontra um software de consumo cujo preço anual ultrapasse 25000 yuan.

A grande maioria das pessoas gasta 10 dólares por dia e, mesmo assim, não aceitaria — aqui são filtrados muitos utilizadores que não pagam.” Eu disse isto a Fu Sheng. Ele não negou o meu julgamento.

Nestes dias, também estou a tentar vários tipos de produtos de camarão-ao-queijo, e as despesas que preciso de contactar não se limitam aos tokens.

Por exemplo: se um utilizador precisa de gerar imagens, é necessário aceder a uma API específica de geração de imagens. Se for para monitorizar conteúdos dinâmicos, também precisa de integrar uma API de pesquisa paga. Estes custos potenciais vão, pouco a pouco, dissuadir a grande maioria dos utilizadores. Embora existam formas de reduzir custos, como soluções de código aberto, projetos open source acabam por ocultar, de forma indireta, riscos de segurança.

A 13 de março, na primeira sessão em direto da série “Xia Chat” (虾聊) da Tencent, o convidado do Laboratório Xuanwu, Lambda, partilhou um dado: segundo ele, a sua própria despesa média mensal de “criar camarões” supera os mil yuan.

Seja ao comparar com a mensalidade anual de ferramentas de consumo, seja com o feedback dos “criadores de camarões” da indústria, dizer “os tokens são demasiado caros” no consumo de tokens baseado em agentes tem base suficiente.

02 Gargalo de armazenamento e abismo de eficiência

De forma simples, token é a unidade base de informação que um grande modelo de linguagem processa: o utilizador introduz um prompt, o modelo devolve uma resposta; cada palavra, cada pontuação, entra na contabilização do consumo de tokens. Essencialmente, é ainda um custo de capacidade de computação.

No passado, as pessoas calculavam o custo total de posse da capacidade de computação, e existiam muitos indicadores, incluindo Flops/W para medir eficiência energética e custos médios/Flops, etc. Este ano, na “economia dos tokens”, token/W tem vindo a tornar-se consenso.

O custo de cada token é o mais baixo do mundo.” Disse Huang Renxun na GTC.

Mas, por mais barato que seja — independentemente da unidade de computação — tudo isto continua a ser um custo de investimento quantificado, envolvendo custos de desenvolvimento, custos de hardware, custos de implementação, custos de consumo de energia, custos operacionais, etc. Por outras palavras, reduzir custos também gira à volta das etapas acima.

Para reduzir custos nos tokens, uma má notícia é que os preços da memória estão a disparar.

Por exemplo, a memória HBM: ela é um componente chave para suportar o treino e a inferência de grandes modelos. Ao mesmo tempo, o aumento explosivo do volume de dados para inferência também gera uma subida sincronizada da procura de armazenamento. No 1.º trimestre de 2026, o preço do DRAM subiu mais de 50% face ao trimestre anterior; e o aumento máximo do preço do NAND face ao trimestre anterior chegou a 150%.

Huang Renxun e Su Zixiao já tinham gritado “HBM tanto quanto for necessário”. A Samsung, a Micron e outros fabricantes de memória de origem já divulgaram externamente que os acordos estratégicos de longo prazo com os principais clientes estão assinados por 5 anos.

O artigo “100 dias de explosão do preço da memória, telemóveis de mil yuan forçados a morrer” já referia que, no mercado de consumo, a produção dos telemóveis de mil yuan talvez tenha de ser suspensa. Mas, na realidade, devido a este problema, as empresas de cloud também estão a ser atormentadas por pressões de aumento de preços. Atualmente, a previsão mais otimista da indústria é que em 2028 os preços do armazenamento voltem a cair; pessimista seria só em 2030.

Enquanto o preço do armazenamento não baixar num dia, não há um alavancador externo chave para reduzir o preço dos tokens.

A melhoria das capacidades do modelo também pode ser vista como outro alavancador para reduzir o preço. “Agora, alguns pequenos modelos de 8B estão cada vez mais próximos das capacidades de modelos completos.” Disse um investigador ligado ao meio académico.

Nesta área, a Wallbreak AI, em conjunto com a equipa da Tsinghua, propôs no “Nature” o conceito de Densing Law. A ideia enfatiza que a densidade de capacidade dos grandes modelos cresce exponencialmente com o tempo: cerca de duas vezes a cada 3,5 meses. Mantendo o mesmo desempenho, a quantidade de parâmetros necessária é reduzida pela metade a cada 3,5 meses.

Um profissional de chips de IA doméstico também salientou que modelos com boas capacidades e escala menor podem impulsionar a redução de custos. “Olha para os preços dos tokens dos grandes modelos open source cá dentro: basicamente têm correlação positiva com o tamanho do modelo.”

Vários profissionais de computação doméstica afirmaram que aumentar a MFU também traz espaço para compressão de custos; além disso, há também otimizações na arquitetura, na memória de vídeo, etc., em vários aspetos de inferência.

“MFU tem pouca relação com o próprio modelo; está sobretudo ligada a operadores e estratégias de escalonamento.” Disse outro profissional de um chip integrado de computação e armazenamento doméstico. “Atualmente, o valor médio da MFU de inferência nos grandes modelos mainstream está em cerca de 30%; após otimização, pode ultrapassar 50%. Calcula-se que dá para poupar 50% dos custos.”

Ou seja, a indústria não está a esgotar o desempenho da GPU: ao investir 100% em dinheiro de GPU, agora só se usa menos de um terço do poder de computação.

No entanto, embora o aumento da MFU possa baixar o custo por token, se isso vai ou não ser transmitido ao C (cliente) depende das considerações comerciais do fornecedor do grande modelo. Se for usado para fazer guerra de preços, não há dúvida de que é um alavancador efetivo.

03 Fazer outra vez uma guerra de preços

A guerra de preços de grandes modelos na China não é um fenómeno sem precedentes.

Em 2024, os fabricantes domésticos já tinham desencadeado uma rodada de guerra de preços intensa. Na altura, coincidiu com a entrada em produção do DeepSeek-V2: 1 yuan por milhão de tokens de entrada e 2 yuan por milhão de tokens de saída. Naquele momento, o preço era equivalente a apenas 1% do GPT-4-Turbo.

A chave da redução de preços do DeepSeek naquela altura estava na otimização da inferência: uma arquitetura MoE esparsa reduziu drasticamente a quantidade de computação. A atenção potencial multi-head do MLA comprimiu o cache de KV em mais de 90%.

Depois de o DeepSeek iniciar esta ronda de redução de preços, a seguir a Alibaba, ByteDance, etc., entraram sucessivamente no jogo da guerra de preços, chegando a surgir a situação de “tokens gratuitos”.

Naquela altura, Wang Xiaochuan falou sobre a guerra de preços numa sessão de intercâmbio. Ele considerou que esta guerra de preços era essencialmente diferente das anteriores disputas de compras em grupo e guerras entre plataformas de transporte por encomenda. “Desta vez, a guerra de preços é uma oferta direta de capacidade produtiva; é uma guerra de preços no mercado B.”

Nessa altura, Wang Xiaochuan também enfatizou que, mesmo que haja prejuízo a curto prazo, (as grandes empresas) poderiam ainda assim obter lucro um ano depois.

“Com o aumento da eficiência de inferência, através de subsídios, os utilizadores tiveram um crescimento muito evidente.” Disse um interno de uma empresa de grandes modelos que participou na ronda anterior da guerra de preços. “Aproximadamente custou alguns milhares de milhões.”

Mas, nesta ronda de consumo de tokens, tanto as necessidades do B quanto as do C explodiram em simultâneo. Ao contrário das guerras de compras em grupo e de transporte, também existiam condições para mudar as relações de produção. No entanto, o mercado mostrou uma passividade surpreendente.

O interno da empresa de grandes modelos que participou na guerra de preços disse que, num cenário em que as capacidades específicas do modelo já estão maduras e há uma fonte estável de utilizadores, talvez ninguém tenha motivação para voltar a entrar numa guerra de preços.

“Não há a mesma escala de consumo de tokens como em 2024. Neste contexto, para fazer guerra de preços com camarões, as receitas ARR dos utilizadores existentes acabam por ser forçadas a perder sangue.” Disse o mesmo profissional de chips de IA domésticos. “Não há necessidade: o aumento incremental trazido pela guerra de preços é incerto. Cortar primeiro a base existente torna estas contas difíceis de calcular.”

Preço das APIs de grandes modelos monitorizadas pela Artificial Analysis

De acordo com os dados acompanhados pela Artificial Analysis, os preços unitários das APIs dos modelos domésticos já são suficientemente baratos. O problema é que este nível de “barato” ainda está muito longe para o consumo massivo de agentes.

Como referido acima: devido ao choque dos custos de hardware de memória e armazenamento, as empresas de cloud domésticas agora enfrentam um problema de aumentos. No curto prazo, não há muita possibilidade de descer preços.

“Agora é uma fase em que a guerra de preços se mantém desde os últimos dois anos; os preços das empresas domésticas têm uma vantagem clara face à América do Norte. Só que, está claro que conquistar utilizadores é uma guerra duradoura, não se resolve com uma ou duas guerras de preços.” O profissional de chips integrados de computação e armazenamento domésticos acrescentou.

04 “Soldar” o modelo no chip

Para resolver o problema de custos causado pelo consumo desenfreado de tokens, parte dos utilizadores começou a tentar usar modelos com implementação local.

Até agora, já há muitos utilizadores que configuraram modelos locais para o “camarão-ao-queijo” com um Mac Mini. Só que este tipo de solução, num espaço de tempo curto, vai aumentando continuamente o custo de uso de tokens; além disso, a implementação local tem barreiras e as capacidades dos modelos open source podem não necessariamente corresponder às necessidades dos utilizadores.

Para utilizadores iniciantes, também há fabricantes a tentar lançar hardware como EdgeClaw. E, ao mesmo tempo, constroem uma camada de história de “segurança” por cima do negócio de hardware. Na verdade, é uma direção que vale a pena tentar. Só que, no ambiente em que os preços da memória estão a subir, parece algo que está um pouco “fora de hora”.

Antes, um fundador de uma empresa de minis PCs disse que a subida de preços afeta toda a indústria.

“Antes, os utilizadores achavam ‘está demasiado caro’; agora, simplesmente nem olham. Não se preocupam com quão grande é a sua memória e o seu disco.” Disse o fundador.

Ao mesmo tempo, algumas marcas também lançaram no e-commerce produtos quase “barebones” (sem memória, sem armazenamento), com um preço mínimo abaixo de 2000 yuan. Embora não tenham uma ‘história de segurança’, ultrapassam o primeiro grande obstáculo que projetos de arranque como o Edgeclaw precisam transpor.

Para o hardware de IA do lado do “camarão-ao-queijo”, o maior desafio continua a ser o Mac Mini: a autoridade da Apple na cadeia de fornecimento e a margem de lucro bruta permitem que o Mac Mini mantenha um preço com relação custo-benefício extremamente alta; para equipas de arranque, é difícil aqui contar uma boa história.

Lembras-te do “all-in-one” (computador tudo-em-um) quando o DeepSeek explodiu no início de 2025? Olha para ver se, hoje, ainda existe algum que tenha essa história na indústria.

Além de soluções de hardware integradas como computadores tudo-em-um, há também projetos de arranque a tentar inovar a partir de níveis de chips ainda mais baixos.

Em fevereiro, a equipa Taalas lançou um chip totalmente novo, o HC1. Esse chip baseia-se no processo TSMC N6, com die size de 815mm² e densidade de transístores de apenas 53B. Um único chip consegue executar o modelo Llama 3.1 8B. O mais central é que a saída TPS (Token/s) por utilizador é 16960/s; os dados são verdadeiramente “absurdos”. A chave está no design do HC1.

A equipa Taalas, neste chip, usou Mask ROM para codificar e fixar os pesos do modelo Llama 3.1 8B diretamente no silício. O circuito na camada metálica do chip corresponde a ligações de neurónios. Em essência, é como se o modelo estivesse “soldado” ao chip; simultaneamente, funde fisicamente computação com armazenamento, eliminando completamente o transporte de dados entre HBM/DRAM e quebrando o limite do “muro da memória”.

Embora o desempenho de TPS seja excelente, as limitações também provêm exatamente desta característica de o modelo estar “soldado” ao chip. Isso significa que só consegue executar uma versão fixa de um modelo fixo: os pesos não podem ser alterados, a estrutura não pode ser ajustada. Para trocar de modelo, tens de fazer novamente a “fabricação do chip” (re-flash/rewafers). Podes entendê-lo como “chip dedicado ao chip, uso dedicado ao modelo”.

05 Escrito por fim

Toda a discussão parte dos custos de uso dos tokens — o que é caro não é o preço unitário, mas o fator de amplificação do número de tokens causado por tarefas de utilização intensiva.


Eu já tentei usar um camarão-ao-queijo para gerar GIFs com carimbos de data/hora específicos. Numa conversa com um colega, ele disse: “Os nossos colegas fazem os GIFs aqui. Fazem um em meio minuto, à mão.”

Embora este caso não seja muito típico, se for preciso fazer alguns GIFs e isso custa alguns yuan, obviamente não é economicamente viável.

Consumo ao produzir GIFs com a API do DeepSeek

Para mudar isto, há duas opções: ou ter uma precificação de tokens mais barata, ou minimizar o consumo de tokens. Isto depende tanto da otimização ao nível do modelo como também de inovação ao nível do hardware de inferência.

Mas, de qualquer forma, enquanto o custo total do uso de tokens não conseguir ser reduzido e a produção de retorno efetivo do investimento for incerta, fazer uma promoção frenética do consumo de tokens e até enfatizar que está ligado a desempenho — dizendo que isto fabrica ansiedade por tokens e até ansiedade por IA — não deixa de ser verdade.

Olha para trás um pouco mais: o velho Huang tem também apelado para que os líderes da indústria tecnológica falem com prudência, evitando gerar pânico irracional do público em relação à tecnologia de inteligência artificial. Isto é como dizer a toda a indústria: não pressionem para criar pânico sobre a inteligência artificial; vocês precisam de manter os tokens a serem queimados.

Mas o problema é: quem é que resolve a questão dos preços? Será que é o DeepSeek V4, que tarda em chegar?

Eu lembro-me que em 2017 havia um artigo que se tornou viral com o título “O povo sente saudades de Zhou Hongyi”. Agora, o povo provavelmente sente saudades da guerra de preços dos tokens e de ver o DeepSeek.

Pelo menos para os “cidadãos de camarão-ao-queijo”, provavelmente é assim.

DEEPSEEK-0,78%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar