Темна сторона Місяця та новий документ Тяньцзиньського університету: попереднє заповнення LLM може перетинати дата-центри, пропускна здатність моделі на 1Т зросла на 54%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом 动察 Beating, Moonshot AI та університет Тсінхуа 16 квітня опублікували нову статтю на arXiv «Prefill-as-a-Service», у якій пропонується запускати етап попереднього заповнення (prefill) для великих моделей у міжданихцентрових мережах. Велика модель для розв'язання задачі робить два кроки: спочатку prefill — одразу зчитує вхідні дані та генерує кеш KV; потім decode — на основі цього кешу послідовно видає результат. Обидва кроки вимагають різних апаратних характеристик: prefill споживає обчислювальні ресурси, decode — пам’ять і пропускну здатність. Основна практика у галузі — розділяти ці кроки на різні машини (розділення PD), але це вимагає з’єднання через RDMA у одному дата-центрі, оскільки кеш KV для моделей з інтенсивною увагою видає десятки Гбіт/с, і при повільній передачі GPU просто залишається без роботи. Відповідь дає нове покоління гібридних моделей уваги. У статті експериментально показано, що моделі Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T та інші, поєднуючи кілька повних шарів уваги з великою кількістю лінійних шарів, зменшили пропускну здатність кешу KV приблизно у десять разів, а компресія Ring-2.5-1T досягла 36-кратного зменшення. Тепер кеш KV можна переносити з приватної мережі RDMA на звичайний Ethernet. Конкретна реалізація PrfaaS: створюється окрема «кластер попереднього заповнення», куди маршрутизуються запити з довгим контекстом і непопаданнями префіксів, а короткі запити залишаються у локальному PD-кластері; після заповнення кешу через Ethernet його повертають у локальний кластер для decode. Вводяться порогові значення довжини, пропускна здатність та динамічний розподіл навантаження, а також гібридний кеш префіксів. У статті проведено експерименти з внутрішньою моделлю hybrid на 1Т параметрів (на базі архітектури Kimi Linear), які показали, що загальна пропускна здатність сервісу у порівнянні з однорідною розгорткою PD зросла на 54%, а у порівнянні з простим гібридним рішенням — на 32%, при цьому кожна машина використовує помірну міжданихцентрову пропускну здатність. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
VolatilityOfToastingBread
· 4год тому
Коротке запитання залишити локальний PD цілком логічно, адже затримка чутлива, довгий контекст вартий зусиль
Переглянути оригіналвідповісти на0
DustCollector
· 6год тому
Простий гетерогенний підвищення на 32%, однорідний PD підвищення на 54%, налаштування контрольної групи досить міцне.
Переглянути оригіналвідповісти на0
Glass-HeartMarketMaker
· 6год тому
Тяньцзинь + Місяць і темна сторона, внутрішня інфраструктура великої моделі китайського виробництва починає конкурувати за перше місце у світовому рейтингу
Переглянути оригіналвідповісти на0
StainedGlassSolarArray
· 6год тому
Місячна темрява, ця операція досить цікава, викидає попереднє заповнення, зосереджуйся на декодуванні локально, отримуючи вигоду від затримки та витрат.
Переглянути оригіналвідповісти на0
MirrorBallReflection
· 6год тому
Змішана модель уваги є ключовою, KV-кеш може передаватися через Ethernet, наскільки ж високий цей ступінь стиснення.
Переглянути оригіналвідповісти на0
PineNeedlesAndColdWind
· 6год тому
Розподіл ресурсів з урахуванням пропускної здатності звучить просто, але на практиці все виявляється складним, вони навіть змогли це реалізувати
Переглянути оригіналвідповісти на0
GoldfishUnderTheIce
· 6год тому
Модель з 1 трильйоном параметрів вже запущена, що свідчить про те, що ця архітектура масштабована без проблем, це не дрібниці.
Переглянути оригіналвідповісти на0
MarginMoth
· 7год тому
PrfaaS цю назву придумали, Prefill as a Service, хмарні обчислення перенесли на великі моделі для виведення.
Переглянути оригіналвідповісти на0
GateUser-78acf617
· 7год тому
54% підвищення пропускної здатності, ці дані виглядають просто чудово, гетерогенна архітектура нарешті перестала бути порожніми словами
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено