Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
CFD
Derivados de CFD de acciones estadounidenses
Acciones EE. UU.
Accede a acciones y ETF estadounidenses reales
Acciones HK
Opera con acciones de calidad cotizadas en Hong Kong
Acciones surcoreanas
SK Hynix
Opera con acciones surcoreanas reales e invierte en activos populares
Futuros de acciones
Alto apalancamiento, trading 24/7
Acciones tokenizadas
Respaldado por acciones reales
IPO Access
Accede al acceso completo a las OPV de acciones globales
GUSD
Acuña GUSD para obtener rendimientos de RWA del Tesoro
Actividades de acciones
Opera con acciones populares y desbloquea grandes airdrops
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gate Wealth
Toma el control del futuro financiero
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 8% TAE
Sin bloqueo, opera y retira.
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
Recientemente, DeepSeek V4 actualizó DSpark, aumentando la velocidad de inferencia en un 80%.
Ahora mismo, DeepSeek V4 ha realizado una actualización.
Se ha lanzado el nuevo marco de decodificación especulativa (Speculative Decoding) llamado DSpark, y se ha abierto de forma sincrónica el código del marco completo de decodificación especulativa de pila completa llamado DeepSpec que lo sustenta.
DeepSeek-V4-Pro-DSpark no es un modelo de arquitectura completamente nueva, sino que introduce un módulo de decodificación especulativa sobre la base de DeepSeek-V4-Pro. El enfoque de esta actualización está en la implementación práctica, no en la iteración de las capacidades del modelo en sí.
DSpark ya ha sido desplegado en el tráfico real en línea de DeepSeek-V4 (Flash y Pro), acelerando significativamente la velocidad de inferencia de los modelos de lenguaje grandes (LLM).
Informe técnico: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
Enlace al informe técnico: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
La intención principal de DSpark es resolver los cuellos de botella de latencia y rendimiento que enfrenta la inferencia de LLM en entornos de producción (especialmente en escenarios de alta concurrencia). En resumen, DSpark logra combinar exitosamente la «generación paralela» de alto rendimiento con la «verificación adaptativa sensible a la carga».
La decodificación especulativa es una técnica que acelera la inferencia de modelos de lenguaje grandes sin cambiar la distribución de salida del modelo. Su idea central es introducir un «modelo borrador» (draft model) ligero que genere varios tokens candidatos por adelantado, y luego el modelo objetivo (target model) verifica y acepta estos candidatos en lotes, transformando así la generación secuencial token por token en una verificación por lotes paralela, reduciendo drásticamente la latencia de extremo a extremo.
Sobre esta base, la innovación de DSpark reside en introducir una arquitectura de generación semi-autorregresiva (Semi-Autoregressive Generation): conserva la ventaja de alto rendimiento del modelo borrador paralelo, al tiempo que agrega un módulo serial ligero para modelar las dependencias entre los tokens dentro de un bloque, mitigando así el problema de la disminución de la tasa de aceptación en posiciones posteriores que sufren los modelos borrador paralelos.
Además, cuenta con una verificación programada por confianza sensible al hardware (Confidence-Scheduled Verification): la decodificación especulativa anterior solía enviar ciegamente todos los tokens borrador generados para su verificación; cuando el sistema está bajo alta carga, estos tokens de cola con alta probabilidad de ser rechazados desperdician gravemente la valiosa potencia de cómputo por lotes. DSpark introduce una cabeza de confianza (Confidence Head) para evaluar la probabilidad de supervivencia de cada token. Combinada con un planificador de prefijos sensible al hardware, el sistema puede ajustar dinámicamente la longitud de verificación óptima para cada solicitud según las características de rendimiento del motor en tiempo real, asignando potencia de cómputo solo a los tokens con el rendimiento esperado más alto.
Para implementarse en infraestructura real en línea, el planificador de DSpark adopta un mecanismo asíncrono, compatible con la programación de sobrecarga cero (ZOS) y la reproducción continua de gráficos CUDA. Utiliza las predicciones históricas de los dos pasos anteriores para determinar la longitud de truncamiento dinámico actual, ocultando así la latencia de programación, evitando pausas en la tubería de la GPU y garantizando la restauración completamente sin pérdidas de la distribución de salida del modelo objetivo.
En pruebas que abarcan múltiples áreas como razonamiento matemático, generación de código y diálogo cotidiano, DSpark supera ampliamente a los modelos autorregresivos (Eagle3) y modelos borrador paralelos (DFlash) más avanzados actuales. Por ejemplo, en los modelos objetivo de la serie Qwen3 (4B, 8B, 14B), su longitud media de aceptación aumenta entre un 26,7% y un 30,9% en comparación con Eagle3, y entre un 16,3% y un 18,4% en comparación con DFlash.
En comparación con la referencia de producción de un solo token (MTP-1) desplegada en la generación anterior, manteniendo el mismo rendimiento general, DSpark mejora la velocidad de generación del usuario entre un 60% y un 85% (modelo Flash) y entre un 57% y un 78% (modelo Pro).
Junto con DSpark, también se ha abierto el código de DeepSpec, un repositorio de código de pila completa para entrenar y evaluar modelos borrador de decodificación especulativa. Es la «infraestructura de código abierto» que alberga esta solución y otras implementaciones de algoritmos de vanguardia, e incluye herramientas de preparación de datos, implementación de modelos borrador, código de entrenamiento y scripts de evaluación.
DeepSpec divide el flujo general en tres fases: preparación de datos, entrenamiento y evaluación. Las tres fases deben ejecutarse en orden, y la salida de la fase anterior sirve como entrada de la siguiente.
En la fase de preparación de datos, es necesario descargar datos de prompts, regenerar respuestas del modelo objetivo utilizando el motor de inferencia y construir una caché objetivo (target cache). Es importante señalar que, tomando como ejemplo la configuración predeterminada Qwen/Qwen3-4B, el tamaño de la caché objetivo puede alcanzar aproximadamente 38 TB, por lo que se debe evaluar adecuadamente los recursos de almacenamiento antes de su uso.
La fase de entrenamiento se puede iniciar mediante
bash scripts/train/train.sh. Este script llama a train.py e inicia un worker por cada GPU visible. El usuario puede seleccionar diferentes configuraciones de algoritmo y modelo objetivo en el directorio config/ especificando config_path. El proyecto también admite ajustar la configuración de entrenamiento sobrescribiendo config_path, target_cache_dir y modificando campos de configuración individuales mediante --opts.En cuanto al hardware, la configuración y los scripts predeterminados de DeepSpec están diseñados para un entorno de un solo nodo con 8 GPU. Si la cantidad de GPU es menor, el usuario debe reducir correspondientemente el número de GPU visibles en CUDA_VISIBLE_DEVICES.
La fase de evaluación se inicia mediante
bash scripts/eval/eval.sh. El script de evaluación utiliza el checkpoint del modelo borrador entrenado para medir la aceptación en múltiples tareas de referencia de decodificación especulativa. Los conjuntos de datos de evaluación actualmente listados en el proyecto incluyen GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca y Arena-Hard-v2, cubriendo diferentes tipos de tareas como razonamiento matemático, generación de código, capacidad de diálogo y preguntas y respuestas integrales.En cuanto a los algoritmos, DeepSpec actualmente incluye tres modelos borrador integrados: DSpark, DFlash y Eagle3. En cuanto a las series de modelos objetivo, el proyecto actualmente admite Qwen3 y Gemma.
La apertura del código de DeepSpec integra la práctica de ingeniería de decodificación especulativa, que antes se dispersaba principalmente en equipos de investigación internos, en un conjunto de herramientas estandarizado, reproducible y escalable. Para los investigadores e ingenieros que desean acelerar la inferencia de sus propios modelos grandes, esto significa que pueden entrenar modelos borrador personalizados directamente sobre un marco maduro, omitiendo una gran cantidad de trabajo repetitivo de construcción de infraestructura.
Fuente de este artículo: Machine Heart
Advertencia de riesgo y cláusula de exención de responsabilidad