OpenAI descobre novo método para reduzir pela metade os custos de inferência

robot
Geração do resumo em andamento
De acordo com uma fonte familiarizada com as discussões, há uma notícia não divulgada anteriormente: no início deste mês, engenheiros da OpenAI informaram a alguns colegas que, confiando em várias tecnologias de otimização recém-desenvolvidas, encontraram uma solução que pode reduzir os custos de inferência do modelo em mais da metade. Após aplicar essa nova tecnologia a cenários onde visitantes de contas gratuitas/pagas usam o ChatGPT, o número de unidades de processamento gráfico (GPUs) Nvidia necessárias foi reduzido para apenas algumas centenas — um número notavelmente baixo. Atualmente, não está claro quais meios técnicos específicos a OpenAI usou para alcançar essa melhoria significativa na eficiência computacional. Os métodos comuns de otimização na indústria geralmente incluem: compressão por quantização, cache de chave-valor, processamento em lote de consultas de usuários em vez de calculá-las individualmente, e redirecionamento de algumas solicitações para modelos leves de baixa potência ou fragmentos de modelo para respostas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado