Nvidia divulga detalhes de custos do Blackwell: GPU é duas vezes mais caro, cada token fica 35 vezes mais barato por token

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a Nvidia publicou um blog desmembrando a escolha de hardware para inferência, com o argumento central: a avaliação da infraestrutura de inferência deve considerar o «custo por token» e não o «custo por GPU por hora». Usando o preço unitário da GPU, o Blackwell é mais caro; usando o custo por token, o Blackwell supera a geração anterior de forma esmagadora.

O blog usa o DeepSeek-R1 (modelo de inferência MoE) como objeto de teste, comparando o Blackwell (GB300 NVL72) com a geração anterior Hopper (HGX H200). Com base no preço de aluguel do mercado de nuvem, o Blackwell custa 2,65 dólares por GPU por hora, quase o dobro dos 1,41 dólares do Hopper, mas a produção de tokens por GPU por segundo sobe de 90 para 6000, uma melhoria de throughput de 65 vezes. Distribuindo essa melhoria, o custo por milhão de tokens cai de 4,20 dólares para 0,12 dólares. A produção de tokens por megawatt aumenta 50 vezes.

Previamente, é importante notar: esse valor de 0,12 dólares é baseado na otimização de software que inclui inferência de baixa precisão FP4, MTP (previsão de múltiplos tokens, permitindo que o modelo gere vários tokens de uma só vez para acelerar) e outras melhorias ativadas. Os dados originais do SemiAnalysis InferenceX v2 mostram que, com o mesmo GB300 NVL72 executando DeepSeek-R1, sem ativar o MTP, o custo por milhão de tokens é de aproximadamente 2,35 dólares; com o MTP ativado, cai para cerca de 0,11 dólares, uma diferença de 21 vezes apenas por essa otimização. Todos esses resultados referem-se ao modelo DeepSeek-R1 isoladamente; diferentes arquiteturas e tamanhos de modelos podem apresentar números diferentes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar