Темна сторона Місяця та новий документ Тяньцзиньського університету: попереднє заповнення LLM може перетинати дата-центри, пропускна здатність моделі на 1Т збільшилась на 54%

robot
Генерація анотацій у процесі
ME Новини повідомляють, 18 квітня (UTC+8), згідно з моніторингом 动察 Beating, що Moonshot AI та Університет Цінхуа 16 квітня опублікували нову статтю на arXiv «Prefill-as-a-Service», у якій пропонується запускати етап попереднього заповнення (prefill) для розумних моделей у міжданих центрах. Велика модель для розуміння робить два кроки: спочатку prefill — одразу зчитує вхідні дані та генерує кеш KV; потім decode — на основі цього кешу послідовно виводить результат. Обидва кроки вимагають зовсім різних апаратних характеристик: prefill споживає обчислювальні ресурси, decode — пам’ять і пропускну здатність. Основна практика у галузі — розділяти ці два кроки на різні машини (розділення PD), але це вимагає з’єднання через RDMA у одному дата-центрі, оскільки кеш KV для моделей з інтенсивною увагою передає десятки Гбіт за секунду, і якщо передача затримується, GPU просто стоїть у режимі очікування. Переломний момент настав із новим поколінням гібридних моделей уваги. У статті експериментально показано, що моделі Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T та інші, поєднуючи кілька повних шарів уваги з великою кількістю лінійних шарів, зменшили пропускну здатність кешу KV приблизно у десять разів, а сумарне стиснення Ring-2.5-1T досягло 36-кратного зменшення. Тепер кеш KV можна переносити з приватної мережі RDMA на звичайний Ethernet для передачі. Конкретна реалізація PrfaaS: створюється окремий «кластер попереднього заповнення», куди маршрутизуються запити з довгим контекстом і непопаданнями префіксів, а короткі запити залишаються у локальному PD-кластері; після завершення попереднього заповнення кеш KV передається назад у локальний кластер через Ethernet для decode. Вводяться порогові значення довжини, сенсори пропускної здатності та гібридний кеш префіксів. У статті використано внутрішню гібридну модель з 1Т параметрів (на базі архітектури Kimi Linear), і результати показали, що загальна пропускна здатність сервісу у порівнянні з однорідним розгортанням PD зросла на 54%, а у порівнянні з простим гібридним рішенням — на 32%, при цьому кожна машина використовує помірну міждата-центрську пропускну здатність. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
RocksUnderTheAurora
· 1год тому
Тяньцзинь+темна сторона місяця, вітчизняна велика модель інфраструктури вийшла на міжнародний рівень
Переглянути оригіналвідповісти на0
YieldNotYell
· 5год тому
Цей дизайн маршрутизації за довжиною порівняно детальний, правильним оптимізаційним підходом є обробка довгих і коротких запитів окремо.
Переглянути оригіналвідповісти на0
CircuitDaydreamer
· 8год тому
Гібридна модель уваги зменшує пропускну здатність кешу KV, детальний розбір технічних деталей та статей
Переглянути оригіналвідповісти на0
AirdropCartographer
· 9год тому
54% покращення дійсно привабливе, але при переході між дата-центрами через Ethernet, як справлятися з джиттером?
Переглянути оригіналвідповісти на0
DeepSeaColdStart
· 9год тому
Лише маршрутизація неуспішних запитів, рівень кешування став ключовим вузлом.
Переглянути оригіналвідповісти на0
UnderTheGlassDome
· 9год тому
Односкладний PD проти гетероскладного PD проти PrfaaS, ця порівняльна градація зроблена досить розумно
Переглянути оригіналвідповісти на0
BluePeonyCalmingAgent
· 10год тому
1T параметрична модель тестується, апаратні витрати не наважуся уявити
Переглянути оригіналвідповісти на0
GateUser-fb035825
· 10год тому
Попередньо заповнений кластер незалежного розгортання, складність обслуговування зросла, чи варто це того?
Переглянути оригіналвідповісти на0
IdleFishDaoMember
· 10год тому
Розподіл з урахуванням пропускної здатності звучить просто, але на практиці реалізація, ймовірно, має купу підводних каменів
Переглянути оригіналвідповісти на0
GateUser-aa277334
· 10год тому
Ця ідея цікава: відправляти попередньо заповнені дані на сервер, а локально зосередитися на декодуванні, чи зможе затримка витримати?
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено