JetBrains esta rodada de código aberto é realmente sólida, o modelo de 12B ativou apenas 2,5B, controlando os custos ao máximo, a aceleração do rascunho do MTP também é bastante interessante

Ver original
CoinNetwork
Modelo de código Mellum-2 de código aberto da JetBrains: suporte integrado ao cabeçalho MTP para aceleração de decodificação especulativa
JetBrains open source Mellum-2, um modelo especialista em mistura de código com 12B de parâmetros. Para controlar o custo de inferência, apenas cerca de 2,5 bilhões de parâmetros são ativados por token, os pesos já foram publicados no Hugging Face, Apache 2.0. Novo módulo de previsão de múltiplos tokens (MTP), durante a inferência, a cabeça MTP atua como um modelo de rascunho para acelerar a amostragem. Disponível em três versões: básica, de diálogo e de reflexão, sendo que a versão de reflexão pode exibir explicitamente a cadeia de raciocínio antes da saída. Benchmark: Humaneval 41,46%, MMLU 70,87%.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado