DeepSeek опубликовал с открытым исходным кодом фреймворк ускорения вывода DeepSpec, запустив DSpark, что увеличивает скорость модели V4 до 85%.

robot
Генерация тезисов в процессе

Согласно мониторингу Beating, DeepSeek совместно с Пекинским университетом опубликовал технический отчет по фреймворку спекулятивной выборки DSpark и открыл исходный код полного стека библиотеки DeepSpec. В настоящее время DSpark развернут в онлайн-сервисе DeepSeek-V4. При условии сохранения качества вывода DSpark повышает скорость генерации для одного пользователя в версии Flash на 60%–85%, а в версии Pro — на 57%–78%. DSpark превзошел исходную базовую линию одномерного прогнозирования с несколькими ветвями (MTP-1) и значительно увеличил общую пропускную способность системы при строгих ограничениях задержки.

Ранее многотокенная спекулятивная выборка с трудом внедрялась в производственные онлайн-среды. Авторегрессионные черновые модели генерировали слишком медленно, а параллельные черновые модели из-за независимого прогнозирования на каждой позиции приводили к крайне низкому уровню принятия второй половины длинных последовательностей. Если слепо проверять многотокенные черновики при высокой конкуренции, большие модели тратят значительные вычислительные ресурсы на проверку заведомо отвергаемых ошибочных токенов, что приводит к серьезному падению общей пропускной способности системы. Поэтому в индустрии онлайн-приложения в основном ограничивались одномерным прогнозированием (MTP-1).

DSpark преодолел узкое место деградации пропускной способности при высокой конкуренции. DSpark сначала использует параллельную магистральную сеть DFlash для генерации скрытых состояний, а затем добавляет крайне легкую марковскую головку. Марковская головка с помощью таблицы поиска и одного матричного умножения с очень низкой стоимостью последовательно встраивает связи между соседними словами. Параллельно система интегрирует головку прогнозирования уверенности и алгоритм апостериорной калибровки. Для идеальной совместимости с нулевыми накладными расходами в производственной среде и предотвращения утечки будущей информации планировщик использует асинхронный механизм, динамически определяя длину обрезки кандидатов на основе исторических прогнозов на два шага назад, что полностью предотвращает проверку высокорисковых ошибочных токенов в хвосте при тяжелых нагрузках большой модели.

Помимо DSpark, в открытой библиотеке DeepSpec встроена поддержка таких открытых больших моделей, как Qwen3 и Gemma. DeepSpec предоставляет полный инструментарий Python для загрузки подсказок, восстановления кэша большой модели, обучения черновой модели и бенчмаркинга. Разработчики могут напрямую использовать открытые скрипты для настройки и развертывания собственных модулей ускорения для различных открытых больших моделей локально.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено