Zhipu lança a API de alta velocidade GLM-5.1, estabelecendo recorde mundial de velocidade com 400 tokens/s

De acordo com o monitoramento da Dongcha Beating, Zhipu lançou a API de alta velocidade GLM-5.1 para clientes empresariais selecionados, atingindo uma velocidade de saída do modelo de 400 tokens/s, estabelecendo um novo recorde mundial para o limite de velocidade de ponta a ponta das interfaces oficiais de grandes modelos. Esta versão de alta velocidade mantém as capacidades do modelo principal original, sendo alimentada por um motor de inferência de alto desempenho desenvolvido em conjunto pela Zhipu e pela equipe TileRT. Este motor reestruturou completamente o mecanismo de agendamento operacional da GPU, organizando estaticamente o modelo numa Núcleo de Motor persistente que reside na GPU durante a fase de compilação. Durante a inferência com uma única placa, o cálculo, I/O assíncrono e comunicação são todos decompostos em micro-tarefas ao nível do tile, iniciando o núcleo apenas uma vez. Os resultados intermediários entre operadores são transmitidos diretamente via registos e caches partilhados, eliminando a latência causada por iniciações frequentes do núcleo e leitura/gravação de memória na inferência tradicional. Quando escalado para uma configuração multi-placa, o TileRT estende ainda mais a abordagem de paralelismo de especialização através de uma topologia NVL de 8 placas, transformando os nós GPU originalmente homogéneos em Trabalhadores heterogéneos responsáveis por diferentes tarefas. No tratamento dos cálculos da camada de atenção do GLM-5.1, o sistema atribui a GPU 0 para executar um Trabalhador de índice esparso dedicado à construção de índices esparsos e decisões de roteamento, enquanto as GPUs 1 a 7 executam Trabalhadores MLA responsáveis pelas fases de cálculo intensivo, integrando totalmente a comunicação no pipeline de tarefas ao nível do tile, alcançando uma sobreposição profunda entre cálculo e comunicação inter-placa. Este serviço de alta velocidade está atualmente disponível para clientes empresariais selecionados na plataforma Zhipu MaaS. No futuro, esta tecnologia irá otimizar ainda mais a inferência FP8 e ambientes de produção de contexto ultra longo, proporcionando um suporte de desempenho mais determinista para cenários sensíveis à baixa latência, como programação de IA, interação em tempo real e voz em tempo real.
ZHIPU26,55%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado