DeepSeek lanza el marco de aceleración de inferencia de código abierto DeepSpec, y el lanzamiento de DSpark mejora la velocidad del modelo V4 hasta en un 85%.

robot
Generación de resúmenes en curso

Según el monitoreo de Beating, DeepSeek, en colaboración con la Universidad de Pekín, publicó el informe técnico del marco de aceleración de muestreo especulativo DSpark y abrió el código completo de la biblioteca DeepSpec. Actualmente, DSpark está implementado en los servicios en línea de DeepSeek-V4. Bajo la premisa de garantizar una salida sin pérdidas, DSpark aumenta la velocidad de generación por usuario de la versión Flash entre un 60 % y un 85 %, y la de la versión Pro entre un 57 % y un 78 %. DSpark supera la línea base original de predicción de múltiples ramas de un solo token (MTP-1), elevando significativamente el rendimiento general del sistema bajo estrictas restricciones de latencia.

Anteriormente, el muestreo especulativo de múltiples tokens era difícil de implementar en entornos de producción en línea. El modelo de borrador autorregresivo generaba demasiado lento, mientras que el modelo de borrador paralelo, debido a predicciones independientes en cada posición, provocaba una tasa de aceptación extremadamente baja en la segunda mitad de secuencias largas. Si bajo alta concurrencia se verificaban ciegamente borradores de múltiples tokens, el modelo grande desperdiciaba una gran cantidad de potencia de cómputo validando errores destinados a ser rechazados, lo que colapsaba gravemente el rendimiento general del sistema. Por ello, la industria se limitaba en línea a la predicción de un solo token (MTP-1).

DSpark supera el cuello de botella de degradación del rendimiento bajo alta concurrencia. DSpark primero utiliza la red troncal paralela DFlash para generar estados ocultos, y luego agrega una cabeza de Markov extremadamente ligera. La cabeza de Markov inyecta en serie la correlación de palabras adyacentes a un costo muy bajo mediante una consulta de tabla y una multiplicación de matrices. Al mismo tiempo, el sistema integra una cabeza de predicción de confianza y un algoritmo de calibración a posteriori. Para compatibilizar perfectamente con la programación de costo cero en entornos de producción y evitar fugas de información futura, el planificador emplea un mecanismo asíncrono, utilizando predicciones históricas de dos pasos anteriores para determinar dinámicamente la longitud de recorte de palabras candidatas, evitando así por completo que el modelo grande valide errores de alto riesgo en la cola bajo cargas pesadas.

Además de DSpark, la biblioteca DeepSpec de código abierto de DeepSeek esta vez ofrece soporte integrado para modelos de código abierto como Qwen3 y Gemma. DeepSpec proporciona una cadena de herramientas completa en Python que abarca desde la descarga de indicaciones, la reconstrucción de cachés de modelos grandes, el entrenamiento de modelos de borrador hasta la evaluación comparativa. Los desarrolladores pueden utilizar directamente scripts de código abierto para personalizar e implementar módulos de aceleración exclusivos para diferentes modelos grandes de código abierto a nivel local.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios