Token está redesenhando as coordenadas de valor na era da IA, a prévia do DeepSeek V4 foi lançada, mais uma vez se tornando o “abutre de preços”, mas trazendo uma nova questão para a precificação de tokens. A mesma quantidade de tokens, em sistemas diferentes, pode ter um custo real que varia em uma ordem de magnitude, e grandes modelos estão caminhando para uma precificação em nível de sistema.

A prévia do DeepSeek V4 finalmente foi lançada, mais uma vez reduzindo o preço dos grandes modelos, o que está em linha com as “características” do DeepSeek.

A precificação V4-Flash, com entrada de 1 yuan, saída de 2 yuan/milhão de tokens, após cache hit, entrada de apenas 0,2 yuan; a precificação V4-Pro, com entrada de 12 yuan, saída de 24 yuan/milhão de tokens, entrada de 1 yuan em cache hit, com desconto temporário de 25% até 5 de maio. Ambos os modelos suportam nativamente um contexto de até um milhão de tokens.

Neste fim de semana, o DeepSeek V4-Pro continuará com uma oferta por tempo limitado, reduzindo o preço para 25%, e o preço de entrada com cache hit será ainda mais barato, com desconto de 90%. Um engenheiro de IA brincou: “Depois do fim de semana, o DeepSeek V4-Pro estará a apenas 0,025 yuan de ser gratuito”.

Atualmente, já se passaram exatamente dois anos desde a guerra de preços iniciada em 2024, com o DeepSeek V2 como ponto de partida. Nesses dois anos, o custo de inferência de grandes modelos caiu exponencialmente, e, considerando fatores como cache hit, o custo efetivo acumulado caiu até cem vezes.

Mas hoje, reduzir preços tem um significado ainda mais importante do que antes. A IA já mudou para o paradigma de agentes, focados em tarefas complexas de longo prazo, onde uma única tarefa envolve dezenas ou centenas de chamadas ao modelo.

Nesse contexto, o lançamento da prévia do DeepSeek V4 vem acompanhado de duas informações importantes. Primeiro, o contexto de um milhão de tokens tornou-se padrão nativo nas duas versões; segundo, há ênfase no preço do cache, com descontos adicionais. Combinando isso, o preço de entrada e saída foi comprimido até o limite inferior do espectro de modelos de mesma capacidade, com o objetivo de reduzir ao máximo a fatura total de uma tarefa de agente.

Token já possui uma nova estrutura de preços

Revisando a redução de preços em 2024, ela essencialmente trouxe grandes modelos do “experimento caro” para a “ferramenta utilizável”. Na época, melhorias na eficiência de inferência por inovação arquitetônica fizeram o custo de chamadas ao modelo, que na era GPT-4 variava entre 10 a 30 dólares por milhão de tokens, diminuir rapidamente para a faixa de 1 dólar.

Gráfico: Queda exponencial do preço do token nos últimos dois anos

Este é um exemplo clássico de “queda absoluta de preço”: desenvolvedores podem usar grandes modelos a baixo custo, e a camada de aplicação começou a se abrir de verdade. Mas, nesse estágio, o preço ainda se relacionava ao “custo por chamada única”, com tokens sendo uma unidade de precificação única, e o número de chamadas proporcional ao custo de forma quase linear.

Após dois anos, a estrutura de preços do DeepSeek V4 também mudou. Com a introdução do mecanismo de cache na cobrança principal, os tokens passaram a ser divididos em duas categorias de custo: “novo cálculo” e “cálculo repetido”. Em cenários de alta taxa de cache hit, o preço de entrada pode cair para um décimo ou até menos do que o original. O preço deixou de ser uma tarifa fixa e passou a ser uma variável fortemente relacionada ao design do sistema.

Gráfico: Token dividido em “novo cálculo” e “cálculo repetido”

Se considerarmos apenas o preço de lista, o V4 mantém a estratégia de preços baixos habitual do DeepSeek. No mercado doméstico, modelos de nível semelhante, como Alibaba Tongyi, Zhipu GLM, Kimi do Moon’s Shadow, têm preços na faixa de 1 a 4 yuan para entrada e 4 a 12 yuan para saída, enquanto o V4-Flash cobra 1 yuan na entrada e 2 yuan na saída, representando cerca de um terço a um quarto da média do setor.

A versão Pro, com 12/24 yuan, aproxima-se de modelos de ponta, mas o contexto de um milhão de tokens é uma capacidade padrão, não uma opção adicional. Globalmente, a diferença de preço é ainda mais evidente, sendo aproximadamente uma décima ou até uma cinquenta avos de alguns concorrentes. Por exemplo, o preço oficial do GPT-5.5 é: entrada de 5 dólares / milhão de tokens, cache de entrada (cached input) de 0,5 dólares / milhão de tokens, saída de 30 dólares / milhão de tokens. O Claude Opus 4.7 mantém a mesma estrutura de preços do Opus 4.6, com aproximadamente 5 dólares na entrada / milhão de tokens e 25 dólares na saída / milhão de tokens.

Embora modelos de ponta no exterior não sejam totalmente comparáveis em capacidade, ecossistema, eficiência de uso de tokens, o preço ainda é um fator decisivo na viabilidade comercial de tarefas de agentes. Os fornecedores estrangeiros também enfrentam pressão de precificação: Sam Altman admitiu publicamente que a assinatura ChatGPT Pro está operando com prejuízo, e Dario Amodei alertou para uma “precificação excessivamente agressiva” no setor. Em certa medida, o sistema de preços reflete a oferta de capacidade computacional, amortização de pesquisa e estratégias de mercado.

Por isso, essa vantagem de preço tem mais significado nesta rodada. Em 2024, o setor buscava resolver a questão de “se é possível usar”; hoje, na nova era de IA baseada em agentes, a questão central é “se é possível operar em escala”.

Uma tarefa de agente geralmente envolve dezenas ou centenas de chamadas ao modelo, com muitas entradas provenientes de prompts do sistema, esquemas de ferramentas e memórias históricas, conteúdos altamente reutilizáveis, e justamente as partes mais propensas a “inflar” os custos.

O foco do DeepSeek V4 foi justamente reduzir esse custo de “cálculo repetido”.

Gráfico: DeepSeek V4 transformou “custo” em uma variável passível de otimização por engenharia. À esquerda, alinhamento de capacidades; à direita, uma queda drástica de custos. Com um contexto de um milhão de tokens, o uso de poder de inferência e cache caiu significativamente, tornando tarefas de longo prazo não mais exponencialmente caras. Essa é a verdadeira força motriz por trás da atual guerra de preços.

Analisando a evolução de preços de seus próprios produtos, essa mudança também é perceptível. A geração anterior, V3.2, tinha preço de entrada de 2 yuan (sem cache hit), 0,2 yuan (com cache hit), e saída de 3 yuan; enquanto o V4-Flash reduziu a entrada para 1 yuan e a saída para 2 yuan, com a mudança mais direta sendo a redução do custo de entrada sem cache pela metade. Em cenários de múltiplas chamadas, o custo acumulado de entrada costuma ser a maior parte, e esse ajuste tem um efeito de alavanca muito maior do que a simples redução de preço aparente.

A versão Pro, com preço de 12/24 yuan, parece mais cara que o Flash, mas o relatório técnico do DeepSeek afirma que “a versão Pro é limitada pela capacidade de hardware de alta performance, e espera-se que, após a chegada em larga escala dos nós Ascend 950 no segundo semestre, o preço do Pro seja significativamente reduzido”. Pode-se entender que o preço atual reflete uma restrição de oferta, não o custo real.

A definição de posicionamento de ambos os modelos também é clara: o Flash é voltado para tarefas de alta concorrência e baixa latência em lote, enquanto o Pro suporta processos complexos de agentes, geração de código de longo prazo e inferência profunda. Segundo o relatório técnico, o DeepSeek já começou a avaliar a capacidade do V4 como agente de código em tarefas reais de pesquisa e desenvolvimento, comparando-o diretamente com a série Claude.

“Abutre de preços”: por que o DeepSeek conseguiu reduzir tanto?

Como o DeepSeek conseguiu baixar os preços?

A atenção tradicional ao lidar com textos longos, com mecanismo de atenção, tem sua complexidade quadrática em relação ao comprimento da sequência. Por exemplo, uma sequência de 1 milhão de tokens exige 64 vezes mais cálculo do que uma de 128 mil, dificultando a comercialização de “contextos de milhões de tokens”. Além disso, o uso de memória de GPU para KV cache cresce linearmente com o comprimento, e atingir 1 milhão de tokens requer reduzir a concorrência ou multiplicar o hardware, o que não é rentável.

Por isso, fornecedores estrangeiros geralmente adotam estratégias de “janela curta padrão, janela longa com sobretaxa”: a Anthropic, por exemplo, cobra uma tarifa separada para sequências acima de 200K tokens, dobrando o preço.

Gráfico: CSA (atenção esparsa comprimida) do DeepSeek V4 comprime o cache KV, usando Top-k para selecionar o contexto mais importante, calculando apenas as informações essenciais, reduzindo drasticamente o uso de poder de cálculo e memória em textos longos.

A solução do V4, de forma simples, é uma combinação de “compressão” e “atenção esparsa”. Primeiro, comprime-se o cache KV de cada m tokens em um único item (taxa de compressão CSA 4, taxa HCA 128), e depois cada consulta (query) só foca nos top-k itens mais relevantes, reduzindo memória e cálculo ao mesmo tempo, atacando dois gargalos.

Gráfico: O HCA (atenção de compressão pesada) do DeepSeek V4 comprime ao limite o cache KV de sequências mais longas em poucas representações, mantendo informações locais e reduzindo ainda mais o custo de cálculo e armazenamento, sendo a chave para a redução de custos de contextos de milhões de tokens.

Segundo o relatório técnico, em um contexto de 1 milhão de tokens, o FLOPs de inferência por token do V4-Pro é apenas 27% do V3.2, e o uso de cache KV é de apenas 10%; o V4-Flash é ainda mais agressivo, com FLOPs de 10% do V3.2 e cache KV de 7%. Combinando com quantização FP4, treinamentos com sensibilidade a quantização, otimizadores Muon, e infraestrutura própria como MegaMoE, o V4 conseguiu otimizar toda a cadeia de treinamento e inferência, reduzindo custos de ponta a ponta.

Preço baixo é uma consequência natural da arquitetura. Um membro central de uma grande empresa de modelos chineses comentou com o Tencent Tech: “O preço da API de grandes modelos domésticos (inclusive deles próprios) depende principalmente da capacidade de custo. Ainda não há ninguém que não esteja ‘competindo por preço’ sem considerar custos. Portanto, a vantagem de custo na base tecnológica é extremamente importante.”

O CTO da Alibaba Cloud, Zhou Jingren, também destacou: “Cada redução de preço é um processo muito sério, que deve considerar o desenvolvimento da indústria, o feedback de desenvolvedores e usuários empresariais, entre outros fatores. Não se trata de uma guerra de preços.”

Por que essa “redução de preços” é mais importante agora?

Do lado da demanda, a redução de custos em escala é uma necessidade mais urgente. O último relatório de Token Economics da Deloitte cita o exemplo da AT&T: após introduzir o sistema de agentes, o consumo diário de tokens da empresa aumentou de 8 bilhões para 27 bilhões. Uma análise do Stevens Institute of Technology aponta que, em diálogos de múltiplas rodadas, há uma “armadilha de crescimento quadrático de tokens”: na 10ª rodada, uma única chamada pode atingir 7 vezes o token da primeira.

O preço do modelo determina se um agente pode ser viável comercialmente.

Na reportagem da CIO de três semanas atrás, a CEO da Addo AI, Ayesha Khanna, afirmou: “Se você usar um agente contínuo conectado a APIs de modelos de ponta, com alto consumo de tokens, contexto longo, múltiplas etapas de raciocínio e saídas repetidas, a economia se deteriora rapidamente. Em alguns casos, o custo de uma única tarefa pode ser maior do que fazer a mesma coisa com uma pessoa.” Essa é a maior barreira atual para a comercialização de agentes: a tecnologia funciona, mas a conta não fecha.

Revendo as ações do V4, quase todas focaram em resolver essa questão: tornar o contexto de um milhão de tokens uma capacidade padrão, eliminando a sobretaxa para agentes com contexto longo; reduzir o preço de cache hit ao nível mais baixo do setor, aproveitando a característica de uso repetido de prompts do sistema em cenários de agentes. O relatório técnico também destaca que o V4 mantém todo o conteúdo de raciocínio em chamadas de ferramentas (o V3.2 descartava esse conteúdo ao iniciar uma nova mensagem de usuário), atendendo às necessidades de chamadas múltiplas de agentes.

O V4 consegue realmente reduzir a linha de custos do IA baseada em agentes?

Por fim, uma questão importante: o V4 pode realmente reduzir a linha de custos de toda a indústria de IA baseada em agentes? Essa questão é ainda mais complexa desta vez.

Primeiro, verificar se outros fornecedores também irão acompanhar. Se o V4 provocar uma redução de preços semelhante, toda a curva de custos do setor se moverá para baixo. Mas, como mencionado, os preços dos modelos dependem mais da estrutura de custos, e a margem de lucro dos fabricantes não pode ser comprimida facilmente no curto prazo, limitando o potencial de redução de preços.

Segundo, a oferta de capacidade computacional de ponta. Como o próprio DeepSeek afirmou no relatório técnico, a capacidade do V4-Pro atualmente é limitada. A estabilidade do fornecimento a preços baixos depende do avanço na implantação em larga escala de nós nacionais como o Ascend 950, e do progresso da engenharia do DeepSeek em plataformas de hardware diversas.

O relatório técnico na seção 3.1 afirma que a DeepSeek validou a implementação de paralelismo de especialistas de granularidade fina em plataformas Nvidia GPU e Huawei Ascend NPU, sendo a primeira vez que a Huawei é listada ao lado da Nvidia na verificação de hardware, tentando desacoplar o caminho de inferência de dependência de hardware único. Se essa validação for bem-sucedida, terá um impacto maior na indústria de grandes modelos domésticos a longo prazo.

Terceiro, a estrutura de tokens em cenários de agentes pode ser ainda mais otimizada. Atualmente, os agentes consomem muitos tokens, e uma parte significativa do desperdício vem da própria arquitetura do agente. Além do preço, a forma como o agente usa tokens é outro fator. Mesmo com o V4 na ponta, um design ruim de agente pode fazer a conta sair do controle. Essa é a importância do sistema Harness, atualmente em alta.

O DeepSeek V4, de fato, reduziu os preços na tabela, tornando o contexto de um milhão de tokens uma capacidade padrão, com preços de saída abaixo de um dólar por milhão de tokens, com uma base arquitetônica sólida, sem depender de subsídios.

Porém, reduzir os custos de toda a indústria de IA baseada em agentes não é uma tarefa simples, pois envolve um sistema mais complexo e sistêmico.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
332.75K Popularidade
#
CryptoMarketsDipSlightly
229.48K Popularidade
#
IsraelStrikesIranBTCPlunges
35.19K Popularidade
#
#DailyPolymarketHotspot
660.54K Popularidade
#
SolanaReleasesQuantumRoadmap
12.75M Popularidade

Fixar

DeepSeek volta a ser o “matador de preços” mas desta vez não está a matar apenas preços

Token já possui uma nova estrutura de preços

“Abutre de preços”: por que o DeepSeek conseguiu reduzir tanto?

Por que essa “redução de preços” é mais importante agora?

O V4 consegue realmente reduzir a linha de custos do IA baseada em agentes?

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

Fixar