ME AI Сообщение, согласно мониторингу Beating, гигант поисковых систем Perplexity AI официально открыл исходный код высокопроизводительного инструментария инфраструктуры для инференса в производственной среде pplx-garden. Основной компонент проекта — собственная высокопроизводительная библиотека для точечно-точечной коммуникации на Rust fabric-lib (также известная как TransferEngine), предназначенная для разрушения привязки к аппаратному обеспечению, связанной с эксклюзивным протоколом NVIDIA, и помощи разработчикам в реализации быстрого запуска больших моделей с миллиардами параметров на гетерогичных кластерах с несколькими графическими картами без необходимости приобретения дорогих сетевых коммутаторов. Традиционный распределённый инференс больших моделей сильно зависит от эксклюзивных высокоскоростных сетевых решений NVIDIA, что ведёт к высоким затратам на аппаратное обеспечение и проблемам с цепочками поставок. fabric-lib реализует децентрализацию на уровне аппаратного обеспечения, идеально совместим с сетевыми картами NVIDIA ConnectX-7 и нативно поддерживает недорогие Ethernet-карты AWS EFA, принадлежащие Amazon, полностью загружая сетевую пропускную способность между картами до 400 Гбит/с. В связи с физическими недостатками передачи данных в AWS EFA, Perplexity впервые внедрила механизм синхронизации счётчиков ImmCounter, который позволяет эффективно осуществлять «ноль копий» передачи данных без жестких предположений о порядке пакетов. Встроенная в библиотеку алгоритм распределения данных специально разработан для гибридных моделей MoE, позволяющий совмещать приём данных графическими картами с глубокой матричной обработкой, что значительно увеличивает вычислительную мощность на этапе декодирования. В реальных производственных условиях pplx-garden демонстрирует значительные инженерные преимущества. В рамках архитектуры с разъединённым инференсом библиотека сети обеспечивает быструю маршрутизацию кэшированных ключей и значений между узлами Prefill и Decoder. В асинхронных обучающих сценариях с усилением обучения достаточно всего 1,3 секунды для синхронизации и распространения весов модели с триллионными параметрами. Для устранения задержек при сегментации текста pplx-garden совместно с открытым исходным кодом выпустила переработанный на Rust сегментатор pplx-unigram, который сокращает нагрузку на CPU в 5-6 раз и устраняет узкие места в производительности при сегментации и работе с векторными моделями. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

12 Лайков

Награда
12
3
Репост
Поделиться

комментарий

Добавить комментарий

GlassDomeRoaming

· 5ч назад

pplx-unigram снизил потребление CPU в 5-6 раз, сегментация наконец-то перестала быть скрытым узким местом, раньше профилирование показало, насколько это безумно.

Посмотреть ОригиналОтветить0

RefrigeratorMagnetContract

· 5ч назад

400Gbps пропускная способность выглядит круто, но fabric-lib без привязки к оборудованию — это настоящее освобождение для обслуживания.

Посмотреть ОригиналОтветить0

GateUser-3e7da866

· 5ч назад

MoE распределение данных и вычисления перекрываются, использование аппаратных ресурсов достигает максимума, эта идея дизайна заслуживает внимательного изучения исходного кода.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.16M Популярность
#
IsraelStrikesIranBTCPlunges
50.52K Популярность
#
StockTradingChallengeUpTo17000U
141.6K Популярность
#
USLaunchesNewStrikesOnIranOilRebounds
9.38M Популярность
#
2gGoldEvery10Minutes
3.11M Популярность

Закреплено

Карта сайта

Perplexity открытая платформа для вывода рассуждений pplx-garden, обход сети NVIDIA для достижения быстрой многокарточной связи

Популярные темы

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

Закреплено