OpenRouter: a diferença de IA entre China e EUA é de apenas 3~6 meses, modelos de código aberto estão varrendo o mundo.

OpenRouter destaca vários representantes: DeepSeek V4 Flash entra em fluxos agênticos reais com preço ultra barato, GLM 5.2 assume o trono da qualidade com o primeiro lugar na avaliação da Artificial Analysis, e NVIDIA Nemotron 3 Ultra representa a equipe americana totalmente aberta. (Resumo: Contagem regressiva para o fim da era de preços altos da IA? Cinco razões estruturais pelas quais os tokens inevitavelmente cairão de preço) (Contexto adicional: Anthropic bloqueia totalmente a China! Empresas de capital chinês, dentro e fora do país, estão proibidas de usar Claude, levantando barreiras de segurança nacional)

Índice

Alternar

  • DeepSeek leva o preço ao chão
  • GLM assume o trono da qualidade
  • Equipe americana: NVIDIA Nemotron 3 Ultra

Há dois anos, o trono dos pesos abertos pertencia ao Llama da Meta. Agora, dados do OpenRouter, o maior roteador neutro de LLMs do mundo, mostram que o Llama caiu completamente do ranking. Em maio de 2026, os modelos de pesos abertos da China já consumiam cerca de 61% dos tokens da plataforma, só o DeepSeek representou 17,6% em uma única semana.

Por trás dessa reviravolta, há um fato subestimado: a inteligência e a capacidade dos modelos de pesos abertos mantêm-se estáveis de três a seis meses atrás dos laboratórios de ponta dos EUA, e essa diferença não está aumentando. Para qualquer organização que analise suas contas de nuvem, transferir cargas de trabalho de modelos de ponta para pesos abertos resulta em economia real.

DeepSeek leva o preço ao chão

O DeepSeek V4 Flash é o primeiro modelo de pesos abertos a ser jogado diretamente em fluxos agênticos reais como substituto de modelos de ponta como Anthropic ou OpenAI. A versão maior V4 Pro obteve 80,6% no SWE-bench Verified, a pontuação mais alta entre pesos abertos (SWE-bench Verified é, em termos simples, um conjunto de tarefas reais de correção de código do GitHub para testar se o modelo sabe programar).

DeepSeek V4-Pro

  • Custo de entrada sem acerto de cache: US$ 0.30 por milhão de tokens
  • Custo de entrada com acerto de cache: US$ 0.03 por milhão de tokens
  • Custo de saída: US$ 0.50 por milhão de tokens

DeepSeek R1 (Especialista em raciocínio profundo e pensamento)

  • Custo de entrada sem acerto de cache: US$ 0.55 por milhão de tokens
  • Custo de entrada com acerto de cache: US$ 0.14 por milhão de tokens
  • Custo de saída: US$ 2.19 por milhão de tokens

DeepSeek V4-Flash (Velocidade extrema e baixo custo como primeira escolha)

  • Custo de entrada sem acerto de cache: US$ 0.14 por milhão de tokens
  • Custo de entrada com acerto de cache: US$ 0.0028 por milhão de tokens
  • Custo de saída: US$ 0.28 por milhão de tokens

Acerto de cache significa: quando o mesmo prompt ou histórico de diálogo é inserido repetidamente, o custo de entrada é drasticamente reduzido em 70% a 90%.

GLM assume o trono da qualidade

O modelo aberto GLM 5.2, lançado pela z-ai em meados de junho, foi classificado como o primeiro em pesos abertos pelo Intelligence Index v4.1 da avaliadora terceirizada Artificial Analysis, com 51 pontos, à frente do Nemotron 3 Ultra com 48, MiniMax M3 e DeepSeek V4 Pro com 44, e apenas cerca de 5 pontos abaixo do fechado Claude Fable 5. Na avaliação agêntica mais realista GDPval-AA, ele está aproximadamente no mesmo nível do GPT-5.5.

Sua força é o planejamento. Design de arquitetura, reestruturação em escala de repositório inteiro, tarefas agênticas de longo prazo, o GLM 5.2 é atualmente o substituto portátil mais próximo do estilo Opus. O custo é que ele gosta muito de pensar: o preço real médio ponderado do OpenRouter é de US$ 0.447 por milhão de tokens de entrada e US$ 3.31 de saída.

O que é ainda mais intrigante é o momento. Poucos dias antes do lançamento do GLM 5.2, uma ordem de controle de exportação dos EUA forçou a Anthropic a desativar amplamente o Fable 5 e o Mythos 5 para evitar acesso de estrangeiros. De um lado, modelos fechados são cortados por geopolítica; do outro, pesos abertos com licença MIT, próximos da fronteira, que qualquer um pode hospedar.

Equipe americana: NVIDIA Nemotron 3 Ultra

Pesos abertos não vêm apenas da China. A NVIDIA também lançou recentemente o Nemotron 3 Ultra, que obteve 48 pontos na mesma lista, sendo o peso aberto mais forte dos EUA, atrás apenas do GLM 5.2.

550 bilhões de parâmetros, 55 bilhões ativos, arquitetura híbrida Mamba-2 e Transformer, licenciado sob OpenMDW; OpenMDW significa, em termos simples, que não apenas os pesos são abertos, mas também os dados de treinamento, receitas e ferramentas de avaliação são de código aberto. O plano da NVIDIA é direto: quanto mais modelos abertos forem usados, mais chips Blackwell, CUDA e serviços empresariais para executá-los serão vendidos.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários