Темна сторона Місяця та новий документ Тяньцзиньського університету: попереднє заповнення LLM може перетинати дата-центри, пропускна здатність моделі на 1Т зросла на 54%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом 动察 Beating, Moonshot AI та Університет Тсінхуа 16 квітня опублікували нову статтю на arXiv «Prefill-as-a-Service», у якій пропонується запускати етап попереднього заповнення (prefill) для розумних моделей у міжцентрових даних.
Розумні моделі для висновків складаються з двох кроків: спочатку prefill — одразу зчитати вхідні дані та створити кеш KV; потім decode — на основі цього кешу послідовно виводити результати.
Обидва кроки вимагають зовсім різних апаратних характеристик: prefill споживає обчислювальні ресурси, decode — пам’ять і пропускну здатність.
Головна практика у галузі — розділяти ці два кроки на різні машини (розділення PD), але це вимагає з’єднання через RDMA у тому ж дата-центрі, оскільки кеш KV для моделей з інтенсивною увагою передає десятки Гбіт за секунду, і при повільній передачі GPU просто іде в простій.
Переломний момент настав із новим поколінням гібридних моделей уваги.
У статті експериментально показано, що моделі Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T та інші, поєднуючи кілька повних шарів уваги з великою кількістю лінійних шарів, зменшили пропускну здатність кешу KV приблизно у десять разів, а сумарне стиснення Ring-2.5-1T досягло 36-кратного.
Завдяки цьому кеш KV можна переносити з приватної мережі RDMA на звичайний Ethernet для передачі.
Конкретна реалізація PrfaaS: створюється окремий «кластер попереднього заповнення», куди маршрутизуються запити з довгим контекстом і непопаданнями префіксів, а короткі запити залишаються у локальному PD-кластері; після заповнення кешу через Ethernet кеш KV повертається до локального кластера для decode.
Вводяться маршрутизація за довжиною, динамічний розподіл пропускної здатності та гібридний пул префіксів.
У статті проведено експерименти з внутрішньою гібридною моделлю на 1Т параметрів (на базі архітектури Kimi Linear), і показано, що загальна пропускна здатність сервісу у порівнянні з однорідним розгортанням на PD вища на 54%, а у порівнянні з простим гібридним рішенням — на 32%, при цьому кожна машина використовує помірну міжцентрову пропускну здатність.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
ExitLiquidityPoet
· 2год тому
Довгий контекст обробляється віддалено лише при пропуску, короткі запити обробляються локально, ця стратегія маршрутизації дуже детальна
Переглянути оригіналвідповісти на0
MetalReliefRoboticArm
· 3год тому
Односкладний PD проти гетерогенного проти PrfaaS, цей порівняльний експеримент спроектовано досить чисто
Переглянути оригіналвідповісти на0
StopMessingAroundWithGasFees.
· 3год тому
1Т-параметрова модель у реальному тестуванні, на таку велику модель ризикуєш запустити — досить впевненості
Переглянути оригіналвідповісти на0
GateUser-4590f4c6
· 3год тому
Чи стане попереднє заповнення послугою, яку продають, і чи з’явиться в майбутньому попереднє заповнення, яке можна просто підключити і використовувати?
Переглянути оригіналвідповісти на0
MoonlightDisconnectSwitch
· 4год тому
Переглянувши всю статтю, найбільше мене цікавить, яку допустиму втрату пакету має бути при фактичному розгортанні.
Переглянути оригіналвідповісти на0
GlassDomeRoaming
· 4год тому
Обізнане про пропускну здатність планування, по суті, це пошук виходу з ситуації, коли ресурси обмежені, і потрібно раціонально використовувати мережеві витрати
Переглянути оригіналвідповісти на0
GlassFishTankArbitrage
· 4год тому
Ethernet передає KV-кеш, раніше вважав це божевілля, тепер це стало темою наукової статті
Переглянути оригіналвідповісти на0
  • Закріплено