Темна сторона місяця — ця послуга Prefill-as-a-Service досить витончена: вона викидає попереднє заповнення на віддалений сервер, залишаючи лише декодування локально, що безпосередньо зменшує навантаження на пропускну здатність удвічі, і тепер можна оцінити співвідношення ціна-якість у сценаріях з довгим контекстом.

Переглянути оригінал
MeNews
Темна сторона Місяця та новий документ Тяньцзиньського університету: попереднє заповнення LLM може перетинати центри даних, пропускна здатність моделі на 1Т збільшилась на 54%
Медійні новини повідомляють, що темна сторона місяця та Tsinghua University у arXiv запропонували Prefill-as-a-Service, що дозволяє запускати етап попереднього заповнення великих моделей у межах різних дата-центрів. За допомогою гібридної моделі уваги значно знижено пропускну здатність кешу KV, що дозволяє передавати кеш через Ethernet і повертати його до локального кластера для декодування. Архітектура PrfaaS створює незалежний кластер попереднього заповнення, маршрутизуючи лише запити з довгим контекстом, що не потрапили, а короткі запити залишаються у локальному PD; також вводяться маршрутизація за порогом довжини та планування з урахуванням пропускної здатності. Практичні випробування на гібридній моделі з 1 трильйоном параметрів показали, що пропускна здатність зросла на 54% порівняно з однорідним PD і на 32% порівняно з простим гібридом.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено