Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Ações da Coreia
SK Hynix
Negocie ações da Coreia reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gate Wealth
Assuma o controle do seu futuro financeiro
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 8% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Agora mesmo, o DeepSeek V4 atualizou o DSpark, com um aumento de 80% na velocidade de inferência.
Agora mesmo, o DeepSeek V4 passou por uma atualização.
Foi lançado um novo framework de decodificação especulativa (Speculative Decoding) chamado DSpark, e simultaneamente foi aberto o código-fonte do framework de decodificação especulativa full-stack que suporta esta versão, o DeepSpec.
O DeepSeek-V4-Pro-DSpark não é um modelo de arquitetura nova, mas sim uma introdução de um módulo de decodificação especulativa sobre o DeepSeek-V4-Pro. O foco desta atualização está na implementação em engenharia, e não na iteração da capacidade do modelo em si.
O DSpark já foi implantado no tráfego online real do DeepSeek-V4 (Flash e Pro), acelerando significativamente a velocidade de inferência do modelo de linguagem de grande porte (LLM).
Relatório técnico: "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation"
Link do relatório técnico: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
A motivação central do DSpark é resolver os gargalos de latência e throughput enfrentados pela inferência de LLM em ambientes de produção (especialmente em cenários de alta concorrência). Em suma, o DSpark combina com sucesso a "geração paralela" de alto throughput com a "verificação adaptativa sensível à carga".
A decodificação especulativa é uma técnica para acelerar a inferência de modelos de linguagem de grande porte sem alterar a distribuição de saída do modelo. Sua ideia central é introduzir um "modelo de rascunho" (draft model) leve, que gera previamente vários tokens candidatos, e então o modelo alvo (target model) realiza a verificação e aceitação em lote desses candidatos, transformando a geração serial token por token em uma verificação em lote paralela, reduzindo drasticamente a latência de ponta a ponta.
Com base nisso, a inovação do DSpark está na introdução de uma arquitetura de geração semi-autorregressiva (Semi-Autoregressive Generation): ela mantém a vantagem de alto throughput do modelo de rascunho paralelo, ao mesmo tempo que adiciona um módulo serial leve para modelar as dependências entre tokens dentro de um bloco, mitigando o problema de degradação da taxa de aceitação que ocorre facilmente em posições posteriores do modelo de rascunho paralelo.
Além disso, há a verificação de agendamento de confiança com consciência de hardware (Confidence-Scheduled Verification): as decodificações especulativas anteriores geralmente enviavam cegamente todos os tokens de rascunho gerados para verificação. Quando o sistema está sob alta carga, esses tokens finais, com altíssima probabilidade de rejeição, desperdiçam gravemente a preciosa capacidade computacional do lote. O DSpark introduz uma cabeça de confiança (Confidence Head) para avaliar a probabilidade de sobrevivência de cada token. Combinado com um agendador de prefixo com consciência de hardware, o sistema pode, com base nas características de throughput do mecanismo em tempo real, determinar dinamicamente o comprimento ideal de verificação para cada solicitação, alocando capacidade computacional apenas para os tokens com maior retorno esperado.
Para ser implementado em infraestruturas online reais, o agendador do DSpark adota um mecanismo assíncrono, compatível com o agendamento de sobrecarga zero (ZOS) e a reprodução contínua de gráficos CUDA. Ele usa previsões históricas das duas etapas anteriores para determinar o comprimento de truncamento dinâmico atual, ocultando assim a latência de agendamento, evitando paralisações no pipeline da GPU, enquanto garante a restauração totalmente sem perdas da distribuição de saída do modelo alvo.
Em testes que abrangem múltiplos domínios, como raciocínio matemático, geração de código e diálogo cotidiano, o DSpark superou significativamente os modelos autorregressivos mais avançados (Eagle3) e os modelos de rascunho paralelo (DFlash). Por exemplo, nos modelos alvo da série Qwen3 (4B, 8B, 14B), seu comprimento médio de aceitação melhorou de 26,7% a 30,9% em relação ao Eagle3, e de 16,3% a 18,4% em relação ao DFlash.
Em comparação com a referência de produção de token único implantada anteriormente (MTP-1), mantendo o mesmo throughput geral, o DSpark aumentou a velocidade de geração do usuário em 60%-85% (modelo Flash) e 57%-78% (modelo Pro), respectivamente.
Junto com o DSpark, também foi aberto o código-fonte do DeepSpec, uma biblioteca de código full-stack para treinar e avaliar modelos de rascunho de decodificação especulativa. É uma "infraestrutura de código aberto" que hospeda esta abordagem e implementações de outros algoritmos de ponta, incluindo ferramentas de preparação de dados, implementação de modelos de rascunho, código de treinamento e scripts de avaliação.
O DeepSpec divide o fluxo geral em três estágios: preparação de dados, treinamento e avaliação. Os três estágios devem ser executados em ordem, com a saída do estágio anterior servindo como entrada para o próximo.
No estágio de preparação de dados, é necessário baixar os dados de prompt, usar o mecanismo de inferência para regenerar as respostas para o modelo alvo e construir um cache alvo (target cache). Vale notar que, usando a configuração padrão Qwen/Qwen3-4B como exemplo, o volume do cache alvo pode chegar a cerca de 38 TB, exigindo uma avaliação adequada dos recursos de armazenamento antes do uso.
O estágio de treinamento pode ser iniciado através de bash scripts/train/train.sh. Este script chama train.py e inicia um worker para cada GPU visível. Os usuários podem selecionar diferentes configurações de algoritmo e modelo alvo no diretório config/ especificando config_path. O projeto também suporta ajustes nas configurações de treinamento sobrescrevendo config_path, target_cache_dir e usando --opts para modificar campos de configuração individuais.
Em termos de hardware, as configurações e scripts padrão do DeepSpec são voltados para ambientes de 8 GPUs em um único nó. Se o número de GPUs for menor, os usuários devem reduzir correspondentemente o número de GPUs visíveis em CUDA_VISIBLE_DEVICES.
O estágio de avaliação é iniciado através de bash scripts/eval/eval.sh. O script de avaliação usa o checkpoint do modelo de rascunho treinado para medir a aceitação em várias tarefas de referência de decodificação especulativa. Os conjuntos de dados de avaliação atualmente listados no projeto incluem GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca e Arena-Hard-v2, abrangendo diferentes tipos de tarefas, como raciocínio matemático, geração de código, capacidade de diálogo e perguntas e respostas abrangentes.
Em termos de algoritmos, o DeepSpec atualmente possui três modelos de rascunho embutidos: DSpark, DFlash e Eagle3. Em termos de séries de modelos alvo, o projeto atualmente suporta Qwen3 e Gemma.
A abertura do código-fonte do DeepSpec integra a decodificação especulativa, que antes estava dispersa em práticas de engenharia internas de várias equipes de pesquisa, em um conjunto de ferramentas padronizadas, reproduzíveis e escaláveis. Para pesquisadores e engenheiros que desejam acelerar a inferência de seus próprios modelos de grande porte, isso significa que eles podem treinar modelos de rascunho personalizados diretamente em uma estrutura madura, pulando uma grande quantidade de trabalho repetitivo de construção de infraestrutura.
Fonte deste artigo: Machine Heart (Jiqizhixin)
Aviso de risco e termos de isenção de responsabilidade