DeepSeek lança estrutura de aceleração de inferência de código aberto DeepSpec, e o lançamento do DSpark aumenta a velocidade do modelo V4 em até 85%

robot
Geração de resumo em curso

Segundo a monitorização do Beating, a DeepSeek, em colaboração com a Universidade de Pequim, publicou um relatório técnico sobre o framework de aceleração de amostragem especulativa DSpark e disponibilizou como open source a biblioteca de código completo DeepSpec. Atualmente, o DSpark está implantado nos serviços online do DeepSeek-V4. Garantindo a saída sem perdas, o DSpark aumenta a velocidade de geração de utilizador único da versão Flash em 60% a 85%, e da versão Pro em 57% a 78%. O desempenho do DSpark superou a linha de base original de predição multi-ramo de um único token (MTP-1), aumentando significativamente a taxa de transferência geral do sistema sob restrições rigorosas de latência.

Anteriormente, a amostragem especulativa de múltiplos tokens era difícil de implementar em ambientes de produção online. Os modelos de rascunho autorregressivos geravam demasiado lentamente, enquanto os modelos de rascunho paralelos, devido à predição independente em cada posição, resultavam numa taxa de aceitação extremamente baixa na segunda metade de sequências longas. Se sob alta concorrência se validassem cegamente rascunhos de múltiplos tokens, os grandes modelos desperdiçariam uma grande quantidade de poder computacional para validar caracteres errados que estariam destinados a ser rejeitados, levando a um colapso grave na taxa de transferência geral do sistema. Por isso, a indústria limitava-se online principalmente à predição de um único token (MTP-1).

O DSpark superou o gargalo de degradação da taxa de transferência sob alta concorrência. O DSpark utiliza primeiro a rede principal paralela DFlash para gerar estados ocultos e, em seguida, adiciona uma cabeça de Markov extremamente leve. A cabeça de Markov, através de consulta a tabelas e uma multiplicação de matrizes, injeta serialmente a associação entre palavras adjacentes com custo muito baixo. Simultaneamente, o sistema integra uma cabeça de previsão de confiança e um algoritmo de calibração a posteriori. Para ser perfeitamente compatível com a programação de custo zero do ambiente de produção e evitar a fuga de informação futura, o escalonador adota um mecanismo assíncrono, utilizando previsões históricas de dois passos atrás para determinar dinamicamente o comprimento de corte dos tokens candidatos, impedindo completamente que os grandes modelos validem caracteres errados de alto risco na cauda sob cargas pesadas.

Além do DSpark, a biblioteca de código DeepSpec que a DeepSeek disponibilizou como open source desta vez suporta nativamente modelos de grande escala open source como Qwen3 e Gemma. O DeepSpec fornece uma cadeia de ferramentas Python completa, desde a descarga de prompts, reconstrução da cache do modelo grande, treino do modelo de rascunho até à avaliação de benchmark. Os programadores podem utilizar diretamente os scripts open source para personalizar e implementar módulos de aceleração dedicados para diferentes modelos de grande escala open source localmente.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário