NVIDIA divulga detalhes de custos do Blackwell: GPU é duas vezes mais caro, cada token fica 35 vezes mais barato por token

robot
Geração do resumo em andamento
De acordo com o monitoramento Beating, a Nvidia publicou um blog desmembrando a escolha de hardware para inferência, com o argumento central: a avaliação da infraestrutura de inferência deve considerar o "custo por token" e não o "custo por GPU por hora". Usando o preço unitário da GPU, Blackwell é mais caro; usando o custo por token, Blackwell supera a geração anterior com folga.

O blog usa o DeepSeek-R1 (modelo de inferência MoE) como objeto de teste, comparando Blackwell (GB300 NVL72) com a geração anterior Hopper (HGX H200). Com base nos preços de aluguel do mercado de nuvem, Blackwell custa 2,65 dólares por GPU por hora, quase o dobro do Hopper, que custa 1,41 dólares. Mas a produção de tokens por GPU por segundo saltou de 90 para 6000, um aumento de 65 vezes na taxa de throughput, o que faz o custo por milhão de tokens cair de 4,20 dólares para 0,12 dólares. A produção de tokens por megawatt aumentou 50 vezes.

É importante notar que esse número de 0,12 dólares é baseado na ativação de várias otimizações de software, como inferência de baixa precisão FP4 e MTP (previsão de múltiplos tokens, permitindo que o modelo gere vários tokens de uma só vez para acelerar). Os dados originais do SemiAnalysis InferenceX v2 mostram que, com o mesmo GB300 NVL72 executando DeepSeek-R1, sem ativar o MTP, o custo por milhão de tokens é de aproximadamente 2,35 dólares; com a ativação, cai para cerca de 0,11 dólares, uma diferença de 21 vezes apenas por essa otimização. Todos esses resultados são referentes ao modelo DeepSeek-R1 individual; diferentes arquiteturas e tamanhos de modelos terão números diferentes.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado