Modelo open-source com biliões de parâmetros atinge 981 palavras/segundo, Cerebras testa Kimi K2.6 e acelera 29 vezes.

robot
Geração de resumo em curso
ME News notícias, 20 de maio (UTC+8), de acordo com a monitorização da 动察 Beating, a empresa de chips a nível de wafer Cerebras anunciou a colocação em funcionamento em testes empresariais do grande modelo de um bilião de parâmetros Kimi K2.6, eliminando completamente a latência de interconexão da comunicação tradicional a nível de placa, ao integrar chips diretamente numa wafer de silício de 12 polegadas.
A entidade de avaliação terceira Artificial Analysis mostrou em testes reais que a sua velocidade de geração atinge 981 tokens/s, 6.7 vezes mais rápida que os serviços cloud GPU mainstream. Numa tarefa de texto longo com 10000 tokens de entrada e 500 tokens de saída, o tempo total de resposta foi reduzido de 163.7 segundos na interface oficial da Kimi para 5.6 segundos, uma aceleração de 29 vezes.
Uma vez que os pesos do modelo são distribuídos por várias wafers para transmissão em fluxo dos valores de ativação, a comunicação entre camadas é completamente executada na rede de tecido interna da wafer, com uma largura de banda de comunicação física superior a 200 vezes a do NVLink na arquitetura NVL72 da Nvidia. Com a otimização da computação distribuída, o Kimi K2.6 armazena com baixa perda os pesos originais de 4-bit (4 bits), utiliza números de ponto flutuante de 16-bit (16 bits) para manter a precisão durante o cálculo, e adota kernels de operadores personalizados e descodificação especulativa para alcançar a execução em tempo real.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário