Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
CFD
Derivados CFD de ações dos EUA
Ações dos EUA
Aceder a ações e ETF reais dos EUA
Ações de Hong Kong
Negociar ações de qualidade cotadas em Hong Kong
Ações coreanas
SK Hynix
Negoceie ações coreanas reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Garantido por ativos de ações reais
IPO Access
Desbloquear acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negociar ações populares e desbloquear airdrops generosos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
IPO Access
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
Agora mesmo, o DeepSeek V4 atualizou o DSpark, aumentando a velocidade de inferência em 80%.
Há pouco, o DeepSeek V4 foi atualizado.
Foi lançado recentemente o framework de decodificação especulativa (Speculative Decoding) DSpark, e simultaneamente foi aberto o código do framework de decodificação especulativa full-stack que suporta esta versão, DeepSpec.
O DeepSeek-V4-Pro-DSpark não é um modelo de arquitetura totalmente novo, mas sim uma introdução do módulo de decodificação especulativa com base no DeepSeek-V4-Pro.
O foco desta atualização está na implementação de engenharia, não na iteração da capacidade do modelo em si.
O DSpark já foi implantado no tráfego real online do DeepSeek-V4 (Flash e Pro), acelerando significativamente a velocidade de inferência dos modelos de linguagem de grande escala (LLM).
O principal objetivo do DSpark é resolver os gargalos de latência e throughput enfrentados pela inferência de LLM em ambientes de produção (especialmente em cenários de alta concorrência).
Em suma, o DSpark combina com sucesso a "geração paralela" de alto throughput com a "verificação adaptativa sensível à carga".
A decodificação especulativa é uma técnica que acelera a inferência de modelos de linguagem de grande escala sem alterar a distribuição de saída do modelo.
A ideia central é introduzir um "modelo rascunho" (draft model) leve, que gera antecipadamente vários tokens candidatos, e então o modelo alvo (target model) valida e aceita esses candidatos em lote, transformando a geração serial token por token em uma verificação paralela em lote, reduzindo significativamente a latência de ponta a ponta.
Com base nisso, a inovação do DSpark reside na introdução da arquitetura de geração semi-autorregressiva (Semi-Autoregressive Generation): ela mantém as vantagens de alto throughput do modelo rascunho paralelo, enquanto adiciona um módulo serial leve para modelar as dependências entre tokens dentro de um bloco, a fim de mitigar o problema de degradação da taxa de aceitação do modelo rascunho paralelo em posições posteriores.
Além disso, há a verificação de agendamento de confiança consciente de hardware (Confidence-Scheduled Verification): a decodificação especulativa anterior geralmente enviava cegamente todos os tokens rascunho gerados para verificação, e quando o sistema está sobrecarregado, esses tokens finais com alta probabilidade de rejeição desperdiçam gravemente a valiosa capacidade computacional de processamento em lote.
O DSpark introduz uma cabeça de confiança (Confidence Head) para avaliar a probabilidade de sobrevivência de cada token.
Combinado com um agendador de prefixo consciente de hardware, o sistema pode personalizar dinamicamente o comprimento de verificação ideal para cada solicitação com base nas características de throughput do motor em tempo real, alocando poder computacional apenas aos tokens com maior retorno esperado.
Para implementação na infraestrutura online real, o agendador do DSpark adota um mecanismo assíncrono para ser compatível com o agendamento de custo zero (ZOS) e a reprodução contínua de grafos CUDA.
Ele utiliza as previsões históricas das duas etapas anteriores para determinar o comprimento de truncamento dinâmico atual, ocultando assim a latência de agendamento, evitando paralisações no pipeline da GPU e garantindo a reprodução totalmente sem perdas da distribuição de saída do modelo alvo.
Em testes abrangendo várias áreas como raciocínio matemático, geração de código e diálogo cotidiano, o DSpark superou significativamente o modelo autorregressivo mais avançado (Eagle3) e o modelo rascunho paralelo (DFlash).
Por exemplo, nos modelos alvo da série Qwen3 (4B, 8B, 14B), seu comprimento médio de aceitação aumentou 26,7% a 30,9% em relação ao Eagle3 e 16,3% a 18,4% em relação ao DFlash.
Em comparação com a referência de produção de token único da geração anterior (MTP-1), mantendo o mesmo throughput geral, o DSpark aumentou a velocidade de geração dos usuários em 60%-85% (modelo Flash) e 57%-78% (modelo Pro), respectivamente.
Juntamente com o DSpark, foi aberto o código do DeepSpec, uma biblioteca de código full-stack para treinar e avaliar modelos rascunho de decodificação especulativa.
É uma "infraestrutura de código aberto" que suporta esta solução e outras implementações de algoritmos de ponta, incluindo ferramentas de preparação de dados, implementações de modelos rascunho, código de treinamento e scripts de avaliação.
O DeepSpec divide o fluxo geral em três fases: preparação de dados, treinamento e avaliação.
As três fases precisam ser executadas em ordem, e a saída da fase anterior serve como entrada para a fase seguinte.
Na fase de preparação de dados, é necessário baixar dados de prompts, regenerar respostas para o modelo alvo usando o motor de inferência e construir um cache alvo (target cache).
Vale ressaltar que, com a configuração padrão Qwen/Qwen3-4B como exemplo, o volume do cache alvo pode chegar a cerca de 38 TB, sendo necessário avaliar adequadamente os recursos de armazenamento antes do uso.
A fase de treinamento pode ser iniciada com bash scripts/train/train.sh.
Este script chama train.py e inicia um worker para cada GPU visível.
O usuário pode selecionar diferentes algoritmos e configurações de modelo alvo no diretório config/ especificando config_path.
O projeto também suporta ajuste das configurações de treinamento através da substituição de config_path, target_cache_dir e uso de --opts para modificar campos de configuração individuais.
Em termos de hardware, a configuração padrão e os scripts do DeepSpec são voltados para ambientes de nó único com 8 GPUs.
Se o número de GPUs for menor, o usuário precisa reduzir correspondentemente o número de GPUs visíveis em CUDA_VISIBLE_DEVICES.
A fase de avaliação é iniciada com bash scripts/eval/eval.sh.
O script de avaliação usa o checkpoint do modelo rascunho treinado para medir a aceitação em várias tarefas de referência de decodificação especulativa.
Os conjuntos de dados de avaliação atualmente listados pelo projeto incluem GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca e Arena-Hard-v2, abrangendo diferentes tipos de tarefas como raciocínio matemático, geração de código, capacidade de diálogo e perguntas e respostas abrangentes.
Em termos de algoritmos, o DeepSpec atualmente inclui três modelos rascunho: DSpark, DFlash e Eagle3.
Quanto às séries de modelos alvo, o projeto atualmente suporta Qwen3 e Gemma.
A abertura do código do DeepSpec integra a prática de engenharia de decodificação especulativa, que antes estava dispersa entre equipes de pesquisa, em uma cadeia de ferramentas padronizada, reproduzível e extensível.
Para pesquisadores e engenheiros que desejam acelerar a inferência de seus próprios grandes modelos, isso significa que podem treinar modelos rascunho personalizados diretamente em um framework maduro, saltando uma grande quantidade de trabalho repetitivo de construção de infraestrutura.
Fonte: Machine Heart
Aviso de risco e termos de isenção de responsabilidade
Mercado tem riscos, investir requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e não considera os objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Investir com base neste artigo é por conta e risco do próprio.