OpenAI descobre novo método para reduzir custos de inferência pela metade.

robot
Geração de resumo em curso
De acordo com uma fonte familiarizada com as discussões, há notícias anteriormente não divulgadas: no início deste mês, engenheiros da OpenAI informaram a alguns colegas que, com base em várias tecnologias de otimização recentemente desenvolvidas, encontraram uma solução que pode reduzir os custos de inferência do modelo em mais de metade. Depois de aplicar esta nova tecnologia a cenários onde visitantes com contas gratuitas/pagas usam o ChatGPT, o número de unidades de processamento gráfico (GPUs) da Nvidia necessárias foi reduzido para apenas algumas centenas — um número notavelmente baixo. Atualmente, não está claro que meios técnicos específicos a OpenAI utilizou para alcançar esta melhoria significativa na eficiência computacional. Os métodos de otimização comuns na indústria geralmente incluem: compressão por quantização, cache de chave-valor, processamento em lote de consultas de utilizadores em vez de as calcular individualmente, e redirecionamento de alguns pedidos para modelos ligeiros de menor potência ou fragmentos de modelo para respostas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado