Согласно мониторингу Beating, DeepSeek совместно с Пекинским университетом опубликовал технический отчет по фреймворку спекулятивной выборки DSpark и открыл исходный код полного стека библиотеки DeepSpec. В настоящее время DSpark развернут в онлайн-сервисе DeepSeek-V4. При условии сохранения качества вывода DSpark повышает скорость генерации для одного пользователя в версии Flash на 60%–85%, а в версии Pro — на 57%–78%. DSpark превзошел исходную базовую линию одномерного прогнозирования с несколькими ветвями (MTP-1) и значительно увеличил общую пропускную способность системы при строгих ограничениях задержки.

Ранее многотокенная спекулятивная выборка с трудом внедрялась в производственные онлайн-среды. Авторегрессионные черновые модели генерировали слишком медленно, а параллельные черновые модели из-за независимого прогнозирования на каждой позиции приводили к крайне низкому уровню принятия второй половины длинных последовательностей. Если слепо проверять многотокенные черновики при высокой конкуренции, большие модели тратят значительные вычислительные ресурсы на проверку заведомо отвергаемых ошибочных токенов, что приводит к серьезному падению общей пропускной способности системы. Поэтому в индустрии онлайн-приложения в основном ограничивались одномерным прогнозированием (MTP-1).

DSpark преодолел узкое место деградации пропускной способности при высокой конкуренции. DSpark сначала использует параллельную магистральную сеть DFlash для генерации скрытых состояний, а затем добавляет крайне легкую марковскую головку. Марковская головка с помощью таблицы поиска и одного матричного умножения с очень низкой стоимостью последовательно встраивает связи между соседними словами. Параллельно система интегрирует головку прогнозирования уверенности и алгоритм апостериорной калибровки. Для идеальной совместимости с нулевыми накладными расходами в производственной среде и предотвращения утечки будущей информации планировщик использует асинхронный механизм, динамически определяя длину обрезки кандидатов на основе исторических прогнозов на два шага назад, что полностью предотвращает проверку высокорисковых ошибочных токенов в хвосте при тяжелых нагрузках большой модели.

Помимо DSpark, в открытой библиотеке DeepSpec встроена поддержка таких открытых больших моделей, как Qwen3 и Gemma. DeepSpec предоставляет полный инструментарий Python для загрузки подсказок, восстановления кэша большой модели, обучения черновой модели и бенчмаркинга. Разработчики могут напрямую использовать открытые скрипты для настройки и развертывания собственных модулей ускорения для различных открытых больших моделей локально.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,62M Популярность
#
MicronEarningsBeatExpectationsSharesRise
473,8K Популярность
#
IsraelStrikesIranBTCPlunges
64,44K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
361,04K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
593,46K Популярность

Закреплено

Карта сайта

DeepSeek опубликовал с открытым исходным кодом фреймворк ускорения вывода DeepSpec, запустив DSpark, что увеличивает скорость модели V4 до 85%.

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено