Agora mesmo, o DeepSeek V4 atualizou o DSpark, aumentando a velocidade de inferência em 80%.

robot
Geração de resumo em curso

Há pouco, o DeepSeek V4 foi atualizado.

Foi lançado recentemente o framework de decodificação especulativa (Speculative Decoding) DSpark, e simultaneamente foi aberto o código do framework de decodificação especulativa full-stack que suporta esta versão, DeepSpec.

O DeepSeek-V4-Pro-DSpark não é um modelo de arquitetura totalmente novo, mas sim uma introdução do módulo de decodificação especulativa com base no DeepSeek-V4-Pro.

O foco desta atualização está na implementação de engenharia, não na iteração da capacidade do modelo em si.

O DSpark já foi implantado no tráfego real online do DeepSeek-V4 (Flash e Pro), acelerando significativamente a velocidade de inferência dos modelos de linguagem de grande escala (LLM).

  • Relatório técnico: "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation"
  • Link do relatório técnico: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

O principal objetivo do DSpark é resolver os gargalos de latência e throughput enfrentados pela inferência de LLM em ambientes de produção (especialmente em cenários de alta concorrência).

Em suma, o DSpark combina com sucesso a "geração paralela" de alto throughput com a "verificação adaptativa sensível à carga".

A decodificação especulativa é uma técnica que acelera a inferência de modelos de linguagem de grande escala sem alterar a distribuição de saída do modelo.

A ideia central é introduzir um "modelo rascunho" (draft model) leve, que gera antecipadamente vários tokens candidatos, e então o modelo alvo (target model) valida e aceita esses candidatos em lote, transformando a geração serial token por token em uma verificação paralela em lote, reduzindo significativamente a latência de ponta a ponta.

Com base nisso, a inovação do DSpark reside na introdução da arquitetura de geração semi-autorregressiva (Semi-Autoregressive Generation): ela mantém as vantagens de alto throughput do modelo rascunho paralelo, enquanto adiciona um módulo serial leve para modelar as dependências entre tokens dentro de um bloco, a fim de mitigar o problema de degradação da taxa de aceitação do modelo rascunho paralelo em posições posteriores.

Além disso, há a verificação de agendamento de confiança consciente de hardware (Confidence-Scheduled Verification): a decodificação especulativa anterior geralmente enviava cegamente todos os tokens rascunho gerados para verificação, e quando o sistema está sobrecarregado, esses tokens finais com alta probabilidade de rejeição desperdiçam gravemente a valiosa capacidade computacional de processamento em lote.

O DSpark introduz uma cabeça de confiança (Confidence Head) para avaliar a probabilidade de sobrevivência de cada token.

Combinado com um agendador de prefixo consciente de hardware, o sistema pode personalizar dinamicamente o comprimento de verificação ideal para cada solicitação com base nas características de throughput do motor em tempo real, alocando poder computacional apenas aos tokens com maior retorno esperado.

Para implementação na infraestrutura online real, o agendador do DSpark adota um mecanismo assíncrono para ser compatível com o agendamento de custo zero (ZOS) e a reprodução contínua de grafos CUDA.

Ele utiliza as previsões históricas das duas etapas anteriores para determinar o comprimento de truncamento dinâmico atual, ocultando assim a latência de agendamento, evitando paralisações no pipeline da GPU e garantindo a reprodução totalmente sem perdas da distribuição de saída do modelo alvo.

Em testes abrangendo várias áreas como raciocínio matemático, geração de código e diálogo cotidiano, o DSpark superou significativamente o modelo autorregressivo mais avançado (Eagle3) e o modelo rascunho paralelo (DFlash).

Por exemplo, nos modelos alvo da série Qwen3 (4B, 8B, 14B), seu comprimento médio de aceitação aumentou 26,7% a 30,9% em relação ao Eagle3 e 16,3% a 18,4% em relação ao DFlash.

Em comparação com a referência de produção de token único da geração anterior (MTP-1), mantendo o mesmo throughput geral, o DSpark aumentou a velocidade de geração dos usuários em 60%-85% (modelo Flash) e 57%-78% (modelo Pro), respectivamente.

Juntamente com o DSpark, foi aberto o código do DeepSpec, uma biblioteca de código full-stack para treinar e avaliar modelos rascunho de decodificação especulativa.

É uma "infraestrutura de código aberto" que suporta esta solução e outras implementações de algoritmos de ponta, incluindo ferramentas de preparação de dados, implementações de modelos rascunho, código de treinamento e scripts de avaliação.

O DeepSpec divide o fluxo geral em três fases: preparação de dados, treinamento e avaliação.

As três fases precisam ser executadas em ordem, e a saída da fase anterior serve como entrada para a fase seguinte.

Na fase de preparação de dados, é necessário baixar dados de prompts, regenerar respostas para o modelo alvo usando o motor de inferência e construir um cache alvo (target cache).

Vale ressaltar que, com a configuração padrão Qwen/Qwen3-4B como exemplo, o volume do cache alvo pode chegar a cerca de 38 TB, sendo necessário avaliar adequadamente os recursos de armazenamento antes do uso.

A fase de treinamento pode ser iniciada com bash scripts/train/train.sh.

Este script chama train.py e inicia um worker para cada GPU visível.

O usuário pode selecionar diferentes algoritmos e configurações de modelo alvo no diretório config/ especificando config_path.

O projeto também suporta ajuste das configurações de treinamento através da substituição de config_path, target_cache_dir e uso de --opts para modificar campos de configuração individuais.

Em termos de hardware, a configuração padrão e os scripts do DeepSpec são voltados para ambientes de nó único com 8 GPUs.

Se o número de GPUs for menor, o usuário precisa reduzir correspondentemente o número de GPUs visíveis em CUDA_VISIBLE_DEVICES.

A fase de avaliação é iniciada com bash scripts/eval/eval.sh.

O script de avaliação usa o checkpoint do modelo rascunho treinado para medir a aceitação em várias tarefas de referência de decodificação especulativa.

Os conjuntos de dados de avaliação atualmente listados pelo projeto incluem GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca e Arena-Hard-v2, abrangendo diferentes tipos de tarefas como raciocínio matemático, geração de código, capacidade de diálogo e perguntas e respostas abrangentes.

Em termos de algoritmos, o DeepSpec atualmente inclui três modelos rascunho: DSpark, DFlash e Eagle3.

Quanto às séries de modelos alvo, o projeto atualmente suporta Qwen3 e Gemma.

A abertura do código do DeepSpec integra a prática de engenharia de decodificação especulativa, que antes estava dispersa entre equipes de pesquisa, em uma cadeia de ferramentas padronizada, reproduzível e extensível.

Para pesquisadores e engenheiros que desejam acelerar a inferência de seus próprios grandes modelos, isso significa que podem treinar modelos rascunho personalizados diretamente em um framework maduro, saltando uma grande quantidade de trabalho repetitivo de construção de infraestrutura.

Fonte: Machine Heart

Aviso de risco e termos de isenção de responsabilidade

Mercado tem riscos, investir requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e não considera os objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Investir com base neste artigo é por conta e risco do próprio.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário