DeepSeek lança framework de aceleração de inferência open-source DeepSpec, e o DSpark aumenta a velocidade do modelo V4 em até 85%.

robot
Geração do resumo em andamento

De acordo com o monitoramento do Moving Observer (动察), a DeepSeek, em colaboração com a Universidade de Pequim, publicou o relatório técnico do framework de amostragem especulativa acelerada DSpark e abriu o código do repositório completo DeepSpec. Atualmente, o DSpark já foi implantado nos serviços online do DeepSeek-V4. Garantindo saída sem perdas, o DSpark melhora a velocidade de geração de usuário único da versão Flash em 60% a 85%, e da versão Pro em 57% a 78%. O DSpark supera a linha de base original de predição de múltiplos tokens em um único passo (MTP-1), aumentando significativamente a taxa de transferência geral do sistema sob restrições rigorosas de latência.

Anteriormente, a amostragem especulativa de múltiplos tokens era difícil de ser implantada em ambientes de produção online. O modelo de rascunho autoregressivo era muito lento, enquanto o modelo de rascunho paralelo, devido à predição independente em cada posição, resultava em uma taxa de aceitação extremamente baixa na segunda metade de sequências longas. Se a verificação cega de rascunhos de múltiplos tokens fosse feita sob alta concorrência, o modelo grande desperdiçaria muitos recursos computacionais verificando erros que certamente seriam rejeitados, levando a uma grave degradação da taxa de transferência geral do sistema. Por isso, a indústria se limitava, online, à predição de token único (MTP-1).

O DSpark supera o gargalo de degradação da taxa de transferência sob alta concorrência. O DSpark primeiro usa a rede principal paralela DFlash para gerar estados ocultos e, em seguida, adiciona uma cabeça de Markov extremamente leve. A cabeça de Markov, por meio de consulta a tabelas e uma multiplicação de matriz, injeta serialmente a correlação entre palavras adjacentes com custo muito baixo. Simultaneamente, o sistema integra uma cabeça de predição de confiança e um algoritmo de calibração posterior. Para ser perfeitamente compatível com a programação de custo zero em ambientes de produção e evitar vazamento de informações futuras, o agendador adota um mecanismo assíncrono, usando previsões históricas de duas etapas anteriores para determinar dinamicamente o comprimento de corte de tokens candidatos, evitando completamente que o modelo grande verifique erros de alto risco no final sob carga pesada.

Além do DSpark, o repositório de código DeepSpec, aberto pela DeepSeek desta vez, já suporta modelos abertos como Qwen3 e Gemma. O DeepSpec fornece uma cadeia de ferramentas Python completa, desde o download de prompts, reconstrução de cache de modelos grandes, treinamento de modelos de rascunho até a avaliação de benchmarks. Os desenvolvedores podem usar diretamente os scripts abertos para personalizar e implantar módulos de aceleração dedicados para diferentes modelos abertos localmente.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários