Только что DeepSeek V4 обновил DSpark, скорость вывода увеличена на 80%.

robot
Генерация тезисов в процессе

Только что DeepSeek V4 получила обновление.

Был представлен новый фреймворк спекулятивного декодирования (Speculative Decoding) DSpark, а также одновременно открыт исходный код полностекового фреймворка спекулятивного декодирования DeepSpec, поддерживающего эту версию.

DeepSeek-V4-Pro-DSpark — это не модель с новой архитектурой, а модуль спекулятивного декодирования, добавленный к DeepSeek-V4-Pro. Основное внимание в этом обновлении уделяется инженерной реализации, а не итерации самой модели.

DSpark уже развернут в реальном трафике DeepSeek-V4 (Flash и Pro), значительно ускоряя инференс больших языковых моделей (LLM).

  • Технический отчет: «DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation»

  • Ссылка на технический отчет: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

Основная цель DSpark — решить проблемы задержки и пропускной способности, с которыми сталкивается LLM в производственной среде (особенно при высоком параллелизме). Проще говоря, DSpark успешно объединил высокопроизводительную «параллельную генерацию» с адаптивной «верификацией, учитывающей нагрузку».

Спекулятивное декодирование — это метод ускорения инференса больших языковых моделей без изменения распределения выходных данных модели. Его основная идея заключается во введении легковесной «модели черновика» (draft model), которая предварительно генерирует несколько кандидатов token, а затем целевая модель (target model) пакетно проверяет и принимает этих кандидатов, превращая последовательное поколение token за token в параллельную пакетную проверку, что значительно снижает сквозную задержку.

На этой основе инновация DSpark заключается во внедрении полуауторегрессионной архитектуры генерации (Semi-Autoregressive Generation): она сохраняет преимущество высокой пропускной способности параллельной модели черновика, добавляя при этом легковесный последовательный модуль для моделирования зависимостей между token в блоке, чтобы смягчить проблему снижения коэффициента принятия в последующих позициях, которая характерна для параллельных моделей черновика.

Кроме того, существует аппаратно-адаптивная верификация с планированием достоверности (Confidence-Scheduled Verification): предыдущие методы спекулятивного декодирования обычно слепо отправляли все сгенерированные токены черновика на проверку, и при высокой нагрузке системы эти хвостовые токены с высокой вероятностью отклонения серьезно расходовали ценные вычислительные ресурсы пакетной обработки. DSpark ввел Confidence Head для оценки вероятности выживания каждого токена. В сочетании с аппаратно-адаптивным планировщиком префиксов система может динамически определять оптимальную длину верификации для каждого запроса в зависимости от характеристик пропускной способности движка в реальном времени, распределяя вычислительные ресурсы только на токены с наибольшей ожидаемой отдачей.

Для внедрения в реальную онлайн-инфраструктуру планировщик DSpark использует асинхронный механизм для совместимости с планированием с нулевыми накладными расходами (ZOS) и непрерывным воспроизведением графов CUDA. Он использует исторические прогнозы двух предыдущих шагов для определения текущей динамической длины усечения, скрывая задержку планирования, избегая остановки конвейера GPU и обеспечивая полностью безошибочное восстановление распределения выходных данных целевой модели.

В тестах, охватывающих такие области, как математическое рассуждение, генерация кода и повседневные диалоги, DSpark значительно превзошел современные авторегрессионные модели (Eagle3) и параллельные модели черновика (DFlash). Например, на целевых моделях серии Qwen3 (4B, 8B, 14B) средняя длина принятия увеличилась на 26,7–30,9% по сравнению с Eagle3 и на 16,3–18,4% по сравнению с DFlash.

По сравнению с предыдущим поколением производственного эталона одиночного токена (MTP-1), при сохранении той же общей пропускной способности, DSpark увеличил скорость генерации для пользователей на 60–85% (модель Flash) и 57–78% (модель Pro) соответственно.

Вместе с DSpark также был открыт исходный код DeepSpec — полнофункциональной кодовой базы для обучения и оценки моделей черновиков спекулятивного декодирования. Это «инфраструктура с открытым исходным кодом», которая включает в себя реализацию данного подхода и других передовых алгоритмов, инструменты подготовки данных, реализацию модели черновика, код обучения и скрипты оценки.

DeepSpec разбивает общий процесс на три этапа: подготовка данных, обучение и оценка. Три этапа необходимо запускать последовательно, выходные данные предыдущего этапа служат входными для следующего.

На этапе подготовки данных необходимо загрузить данные подсказок, заново сгенерировать ответы для целевой модели с помощью движка инференса и построить целевой кэш (target cache). Стоит отметить, что в конфигурации по умолчанию Qwen/Qwen3-4B объем целевого кэша может достигать примерно 38 ТБ, поэтому перед использованием необходимо тщательно оценить ресурсы хранения.

Этап обучения можно запустить с помощью bash scripts/train/train.sh. Этот скрипт вызывает train.py и запускает один worker для каждой видимой GPU. Пользователи могут задать config_path для выбора различных алгоритмов и конфигураций целевых моделей в каталоге config/. Проект также поддерживает настройку обучения путем переопределения config_path, target_cache_dir и изменения отдельных полей конфигурации с помощью --opts.

Что касается аппаратного обеспечения, конфигурация и скрипты DeepSpec по умолчанию предназначены для среды с 8 GPU на одном узле. Если количество GPU меньше, пользователям необходимо соответствующим образом уменьшить количество видимых GPU в CUDA_VISIBLE_DEVICES.

Этап оценки запускается с помощью bash scripts/eval/eval.sh. Скрипт оценки использует контрольную точку (checkpoint) обученной модели черновика для измерения коэффициента принятия на нескольких эталонных задачах спекулятивного декодирования. Текущие перечисленные наборы данных для оценки включают GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca и Arena-Hard-v2, охватывающие различные типы задач, такие как математическое рассуждение, генерация кода, диалоговые способности и общий вопрос-ответ.

С точки зрения алгоритмов, DeepSpec в настоящее время включает три модели черновиков: DSpark, DFlash и Eagle3. Что касается серий целевых моделей, проект в настоящее время поддерживает Qwen3 и Gemma.

Открытый исходный код DeepSpec объединяет инженерные практики спекулятивного декодирования, ранее разбросанные по внутренним разработкам исследовательских групп, в одну воспроизводимую и расширяемую стандартизированную цепочку инструментов. Для исследователей и инженеров, желающих ускорить инференс своих больших моделей, это означает возможность напрямую обучать пользовательские модели черновиков на зрелом фреймворке, пропуская множество повторяющихся работ по созданию инфраструктуры.

Источник этой статьи: Machine Heart

Предупреждение о рисках и отказ от ответственности

        Рынок несет риски, инвестиции требуют осторожности. Данная статья не является индивидуальной инвестиционной рекомендацией и не учитывает особые инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователям следует оценить, соответствуют ли какие-либо мнения, взгляды или выводы в данной статье их конкретным обстоятельствам. Ответственность за инвестиции на основе этой статьи лежит на пользователе.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено