DeepSeek відкриває фреймворк прискорення висновків DeepSpec, запускає DSpark, що підвищує швидкість моделі V4 до 85%

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, DeepSeek спільно з Пекінським університетом опублікував технічний звіт про спекулятивну структуру прискорення вибірки DSpark і відкрив вихідний код повної бібліотеки DeepSpec. Наразі DSpark розгорнуто в онлайн-сервісі DeepSeek-V4. За умови збереження безвтратних результатів DSpark підвищує швидкість генерації для одного користувача у версії Flash на 60% до 85%, а у версії Pro — на 57% до 78%. DSpark перевершує оригінальний базовий рівень одноелементного багатовіткового прогнозування (MTP-1), значно підвищуючи загальну пропускну здатність системи за жорстких обмежень затримки.

Раніше спекулятивна вибірка кількох токенів була важкою для впровадження у виробничому середовищі. Авторегресивні чернеткові моделі генерують занадто повільно, а паралельні чернеткові моделі через незалежне прогнозування в кожній позиції призводять до дуже низького рівня прийняття другої половини довгих послідовностей. Якщо сліпо перевіряти чернетки з кількома токенами при високому паралелізмі, великі моделі витрачатимуть величезну обчислювальну потужність на перевірку помилкових символів, які приречені на відхилення, що призведе до серйозного падіння загальної пропускної здатності системи. Тому галузь в основному обмежується прогнозуванням одного токена (MTP-1) в онлайн-режимі.

DSpark долає вузьке місце деградації пропускної здатності при високому паралелізмі. DSpark спочатку використовує паралельну магістраль DFlash для генерації прихованих станів, а потім додає надзвичайно легку голову Маркова. Голова Маркова через таблицю пошуку та одноразове множення матриць з дуже низькою вартістю послідовно вводить зв'язки між сусідніми словами. Водночас система інтегрує голову прогнозування впевненості та алгоритм апостеріорної калібровки. Для ідеальної сумісності з нульовим плануванням у виробничому середовищі та запобігання витоку майбутньої інформації планувальник використовує асинхронний механізм, використовуючи історичні прогнози з двох кроків тому для динамічного визначення довжини обрізання кандидатів, повністю запобігаючи перевірці високоризикових кінцевих помилкових символів великою моделлю при важкому навантаженні.

Окрім DSpark, відкрита бібліотека DeepSpec від DeepSeek має вбудовану підтримку Qwen3 та Gemma та інших відкритих великих моделей. DeepSpec надає повний ланцюжок інструментів Python від завантаження підказок, відновлення кешу великої моделі, навчання чернеткової моделі до базової оцінки. Розробники можуть безпосередньо використовувати відкриті скрипти для налаштування та розгортання спеціалізованих модулів прискорення для різних відкритих великих моделей локально.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено