Agora mesmo, o DeepSeek V4 atualizou o DSpark, com um aumento de 80% na velocidade de inferência.

robot
Geração do resumo em andamento

Agora mesmo, o DeepSeek V4 passou por uma atualização.

Foi lançado um novo framework de decodificação especulativa (Speculative Decoding) chamado DSpark, e simultaneamente foi aberto o código-fonte do framework de decodificação especulativa full-stack que suporta esta versão, o DeepSpec.

O DeepSeek-V4-Pro-DSpark não é um modelo de arquitetura nova, mas sim uma introdução de um módulo de decodificação especulativa sobre o DeepSeek-V4-Pro. O foco desta atualização está na implementação em engenharia, e não na iteração da capacidade do modelo em si.

O DSpark já foi implantado no tráfego online real do DeepSeek-V4 (Flash e Pro), acelerando significativamente a velocidade de inferência do modelo de linguagem de grande porte (LLM).

  • Relatório técnico: "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation"

  • Link do relatório técnico: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

A motivação central do DSpark é resolver os gargalos de latência e throughput enfrentados pela inferência de LLM em ambientes de produção (especialmente em cenários de alta concorrência). Em suma, o DSpark combina com sucesso a "geração paralela" de alto throughput com a "verificação adaptativa sensível à carga".

A decodificação especulativa é uma técnica para acelerar a inferência de modelos de linguagem de grande porte sem alterar a distribuição de saída do modelo. Sua ideia central é introduzir um "modelo de rascunho" (draft model) leve, que gera previamente vários tokens candidatos, e então o modelo alvo (target model) realiza a verificação e aceitação em lote desses candidatos, transformando a geração serial token por token em uma verificação em lote paralela, reduzindo drasticamente a latência de ponta a ponta.

Com base nisso, a inovação do DSpark está na introdução de uma arquitetura de geração semi-autorregressiva (Semi-Autoregressive Generation): ela mantém a vantagem de alto throughput do modelo de rascunho paralelo, ao mesmo tempo que adiciona um módulo serial leve para modelar as dependências entre tokens dentro de um bloco, mitigando o problema de degradação da taxa de aceitação que ocorre facilmente em posições posteriores do modelo de rascunho paralelo.

Além disso, há a verificação de agendamento de confiança com consciência de hardware (Confidence-Scheduled Verification): as decodificações especulativas anteriores geralmente enviavam cegamente todos os tokens de rascunho gerados para verificação. Quando o sistema está sob alta carga, esses tokens finais, com altíssima probabilidade de rejeição, desperdiçam gravemente a preciosa capacidade computacional do lote. O DSpark introduz uma cabeça de confiança (Confidence Head) para avaliar a probabilidade de sobrevivência de cada token. Combinado com um agendador de prefixo com consciência de hardware, o sistema pode, com base nas características de throughput do mecanismo em tempo real, determinar dinamicamente o comprimento ideal de verificação para cada solicitação, alocando capacidade computacional apenas para os tokens com maior retorno esperado.

Para ser implementado em infraestruturas online reais, o agendador do DSpark adota um mecanismo assíncrono, compatível com o agendamento de sobrecarga zero (ZOS) e a reprodução contínua de gráficos CUDA. Ele usa previsões históricas das duas etapas anteriores para determinar o comprimento de truncamento dinâmico atual, ocultando assim a latência de agendamento, evitando paralisações no pipeline da GPU, enquanto garante a restauração totalmente sem perdas da distribuição de saída do modelo alvo.

Em testes que abrangem múltiplos domínios, como raciocínio matemático, geração de código e diálogo cotidiano, o DSpark superou significativamente os modelos autorregressivos mais avançados (Eagle3) e os modelos de rascunho paralelo (DFlash). Por exemplo, nos modelos alvo da série Qwen3 (4B, 8B, 14B), seu comprimento médio de aceitação melhorou de 26,7% a 30,9% em relação ao Eagle3, e de 16,3% a 18,4% em relação ao DFlash.

Em comparação com a referência de produção de token único implantada anteriormente (MTP-1), mantendo o mesmo throughput geral, o DSpark aumentou a velocidade de geração do usuário em 60%-85% (modelo Flash) e 57%-78% (modelo Pro), respectivamente.

Junto com o DSpark, também foi aberto o código-fonte do DeepSpec, uma biblioteca de código full-stack para treinar e avaliar modelos de rascunho de decodificação especulativa. É uma "infraestrutura de código aberto" que hospeda esta abordagem e implementações de outros algoritmos de ponta, incluindo ferramentas de preparação de dados, implementação de modelos de rascunho, código de treinamento e scripts de avaliação.

O DeepSpec divide o fluxo geral em três estágios: preparação de dados, treinamento e avaliação. Os três estágios devem ser executados em ordem, com a saída do estágio anterior servindo como entrada para o próximo.

No estágio de preparação de dados, é necessário baixar os dados de prompt, usar o mecanismo de inferência para regenerar as respostas para o modelo alvo e construir um cache alvo (target cache). Vale notar que, usando a configuração padrão Qwen/Qwen3-4B como exemplo, o volume do cache alvo pode chegar a cerca de 38 TB, exigindo uma avaliação adequada dos recursos de armazenamento antes do uso.

O estágio de treinamento pode ser iniciado através de bash scripts/train/train.sh. Este script chama train.py e inicia um worker para cada GPU visível. Os usuários podem selecionar diferentes configurações de algoritmo e modelo alvo no diretório config/ especificando config_path. O projeto também suporta ajustes nas configurações de treinamento sobrescrevendo config_path, target_cache_dir e usando --opts para modificar campos de configuração individuais.

Em termos de hardware, as configurações e scripts padrão do DeepSpec são voltados para ambientes de 8 GPUs em um único nó. Se o número de GPUs for menor, os usuários devem reduzir correspondentemente o número de GPUs visíveis em CUDA_VISIBLE_DEVICES.

O estágio de avaliação é iniciado através de bash scripts/eval/eval.sh. O script de avaliação usa o checkpoint do modelo de rascunho treinado para medir a aceitação em várias tarefas de referência de decodificação especulativa. Os conjuntos de dados de avaliação atualmente listados no projeto incluem GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca e Arena-Hard-v2, abrangendo diferentes tipos de tarefas, como raciocínio matemático, geração de código, capacidade de diálogo e perguntas e respostas abrangentes.

Em termos de algoritmos, o DeepSpec atualmente possui três modelos de rascunho embutidos: DSpark, DFlash e Eagle3. Em termos de séries de modelos alvo, o projeto atualmente suporta Qwen3 e Gemma.

A abertura do código-fonte do DeepSpec integra a decodificação especulativa, que antes estava dispersa em práticas de engenharia internas de várias equipes de pesquisa, em um conjunto de ferramentas padronizadas, reproduzíveis e escaláveis. Para pesquisadores e engenheiros que desejam acelerar a inferência de seus próprios modelos de grande porte, isso significa que eles podem treinar modelos de rascunho personalizados diretamente em uma estrutura madura, pulando uma grande quantidade de trabalho repetitivo de construção de infraestrutura.

Fonte deste artigo: Machine Heart (Jiqizhixin)

Aviso de risco e termos de isenção de responsabilidade

        O mercado envolve riscos; invista com cautela. Este artigo não constitui aconselhamento pessoal de investimento e não leva em consideração os objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Qualquer investimento com base neste artigo é de responsabilidade exclusiva do investidor.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários