Perplexity відкритий базовий рушій для логічних обчислень pplx-garden, обхід мережевих податків NVIDIA для швидкої багатокарткової комунікації

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, гігант пошукових систем Perplexity AI офіційно відкрив вихідний код високопродуктивного інфраструктурного пакету для інференції у виробничому середовищі pplx-garden. Основою проекту є власна високопродуктивна бібліотека для точкових комунікацій на Rust fabric-lib (також відома як TransferEngine), яка має на меті зламати прив’язку до апаратного забезпечення через ексклюзивний протокол NVIDIA, допомагаючи розробникам без необхідності купувати дорогі спеціалізовані мережеві комутатори реалізовувати швидкий запуск великих моделей з мільярдами параметрів у гетерогенних кластерних системах з кількома графічними картами. Традиційна розподілена інференція великих моделей сильно залежить від ексклюзивної високошвидкісної мережі NVIDIA, що призводить до високих витрат на апаратне забезпечення та залежності від ланцюгів постачання. fabric-lib реалізує децентралізацію на апаратному рівні, ідеально підходить для карт NVIDIA ConnectX-7, а також нативно підтримує дешеві Ethernet-карти AWS EFA від Amazon, збільшуючи мережеву пропускну здатність між картами до 400 Гбіт/с. Щоб подолати фізичні недоліки порядкового передавання AWS EFA, Perplexity вперше запровадила механізм синхронізації лічильників ImmCounter, який дозволяє ефективно здійснювати «нуль-копіювання» потоків даних без необхідності жорстко припускати порядок пакетів. Вбудована у бібліотеку алгоритм розподілу даних, спеціально розроблений для гібридної моделі експертів MoE, дозволяє одночасно отримувати дані з графічних карт і виконувати матричні обчислення, максимально використовуючи обчислювальні ресурси на етапі декодування. У реальному виробництві pplx-garden демонструє значні інженерні переваги. У розв’язаній архітектурі інференції мережевий бібліотека забезпечує швидке управління кешем ключ-значення між вузлами Prefill і Decoder. У тренуваннях з асинхронного підкріпленого навчання достатньо всього 1,3 секунди для синхронізації та розподілу вагів моделі з мільярдами параметрів. Щоб зменшити затримки обчислень на етапі токенізації, pplx-garden відкрила вихідний код переписаного на Rust токенізатора pplx-unigram, що зменшує споживання CPU у 5-6 разів і усуває вузькі місця у продуктивності при перерозподілі та векторизації на етапі токенізації. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GlassDomeRoaming
· 3год тому
pplx-unigram зменшує споживання ЦПУ у 5-6 разів, сегментація нарешті перестала бути прихованим вузьким місцем, раніше профілював — і зрозумів, наскільки це безглуздо.
Переглянути оригіналвідповісти на0
RefrigeratorMagnetContract
· 3год тому
400Gbps пропускна здатність виглядає круто, але fabric-lib без прив'язки до апаратного забезпечення — це справжнє звільнення від обслуговування.
Переглянути оригіналвідповісти на0
GateUser-3e7da866
· 3год тому
Розподіл даних MoE та обчислювальна перекриття, максимальне використання апаратного забезпечення, ця ідея дизайну заслуговує на детальне вивчення вихідного коду.
Переглянути оригіналвідповісти на0
  • Закріплено