De acordo com o monitoramento da Dongcha Beating, Zhipu lançou a API de alta velocidade GLM-5.1 para clientes empresariais selecionados, atingindo uma velocidade de saída do modelo de 400 tokens/s, estabelecendo um novo recorde mundial para o limite de velocidade de ponta a ponta das interfaces oficiais de grandes modelos.
Esta versão de alta velocidade mantém as capacidades do modelo principal original enquanto é alimentada por um motor de inferência de alto desempenho desenvolvido em conjunto por Zhipu e a equipe TileRT.
Este motor reestruturou completamente o mecanismo de agendamento operacional da GPU, organizando estaticamente o modelo em um Kernel de Motor persistente que reside na GPU durante a fase de compilação.
Durante a inferência com uma única placa, o cálculo, I/O assíncrono e comunicação são todos decompostos em micro-tarefas ao nível de tile, iniciando o kernel apenas uma vez.
Resultados intermediários entre operadores são transmitidos diretamente via registradores e caches compartilhados, eliminando a latência causada por inicializações frequentes de kernel e leitura/gravação de memória na inferência tradicional.
Quando escalado para uma configuração de várias placas, o TileRT estende ainda mais a abordagem de paralelismo de especialização através de uma topologia NVL de 8 placas, transformando os nós de GPU originalmente homogêneos em Trabalhadores heterogêneos responsáveis por diferentes tarefas.
Ao lidar com os cálculos da camada de atenção do GLM-5.1, o sistema atribui a GPU 0 para executar um Trabalhador de índice esparso dedicado à construção de índice esparso e decisões de roteamento, enquanto as GPUs 1 a 7 executam Trabalhadores MLA responsáveis pelas fases de cálculo intensivo, integrando totalmente a comunicação no pipeline de tarefas ao nível de tile, alcançando uma sobreposição profunda entre cálculo e comunicação entre placas.
Este serviço de alta velocidade está atualmente disponível para clientes empresariais selecionados na plataforma Zhipu MaaS.
No futuro, essa tecnologia irá otimizar ainda mais a inferência FP8 e ambientes de produção de contexto ultra longo, fornecendo suporte de desempenho mais determinístico para cenários sensíveis à baixa latência, como programação de IA, interação em tempo real e voz em tempo real.

ZHIPU26,55%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
TradfiTradingChallenge
316.25K Popularidade
#
PlatinumCardCreatorExclusive
113.77K Popularidade
#
IsraelStrikesIranBTCPlunges
48.97K Popularidade
#
#DailyPolymarketHotspot
1.05M Popularidade
#
GateSquarePizzaDay
647.54K Popularidade

Fixado

sitemap

Zhipu lança a API de alta velocidade GLM-5.1, estabelecendo recorde mundial de velocidade de 400 tokens/s

Tendências

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado