Zhipu lança a API de alta velocidade GLM-5.1, estabelecendo recorde mundial de velocidade de 400 tokens/s

De acordo com o monitoramento da Dongcha Beating, Zhipu lançou a API de alta velocidade GLM-5.1 para clientes empresariais selecionados, atingindo uma velocidade de saída do modelo de 400 tokens/s, estabelecendo um novo recorde mundial para o limite de velocidade de ponta a ponta das interfaces oficiais de grandes modelos.
Esta versão de alta velocidade mantém as capacidades do modelo principal original enquanto é alimentada por um motor de inferência de alto desempenho desenvolvido em conjunto por Zhipu e a equipe TileRT.
Este motor reestruturou completamente o mecanismo de agendamento operacional da GPU, organizando estaticamente o modelo em um Kernel de Motor persistente que reside na GPU durante a fase de compilação.
Durante a inferência com uma única placa, o cálculo, I/O assíncrono e comunicação são todos decompostos em micro-tarefas ao nível de tile, iniciando o kernel apenas uma vez.
Resultados intermediários entre operadores são transmitidos diretamente via registradores e caches compartilhados, eliminando a latência causada por inicializações frequentes de kernel e leitura/gravação de memória na inferência tradicional.
Quando escalado para uma configuração de várias placas, o TileRT estende ainda mais a abordagem de paralelismo de especialização através de uma topologia NVL de 8 placas, transformando os nós de GPU originalmente homogêneos em Trabalhadores heterogêneos responsáveis por diferentes tarefas.
Ao lidar com os cálculos da camada de atenção do GLM-5.1, o sistema atribui a GPU 0 para executar um Trabalhador de índice esparso dedicado à construção de índice esparso e decisões de roteamento, enquanto as GPUs 1 a 7 executam Trabalhadores MLA responsáveis pelas fases de cálculo intensivo, integrando totalmente a comunicação no pipeline de tarefas ao nível de tile, alcançando uma sobreposição profunda entre cálculo e comunicação entre placas.
Este serviço de alta velocidade está atualmente disponível para clientes empresariais selecionados na plataforma Zhipu MaaS.
No futuro, essa tecnologia irá otimizar ainda mais a inferência FP8 e ambientes de produção de contexto ultra longo, fornecendo suporte de desempenho mais determinístico para cenários sensíveis à baixa latência, como programação de IA, interação em tempo real e voz em tempo real.
ZHIPU26,55%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado