Perplexity открытая платформа для вывода рассуждений pplx-garden, обход сети NVIDIA для достижения быстрой многокарточной связи

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, гигант поисковых систем Perplexity AI официально открыл исходный код высокопроизводительного инструментария инфраструктуры для инференса в производственной среде pplx-garden. Основной компонент проекта — собственная высокопроизводительная библиотека для точечно-точечной коммуникации на Rust fabric-lib (также известная как TransferEngine), предназначенная для разрушения привязки к аппаратному обеспечению, связанной с эксклюзивным протоколом NVIDIA, и помощи разработчикам в реализации быстрого запуска больших моделей с миллиардами параметров на гетерогичных кластерах с несколькими графическими картами без необходимости приобретения дорогих сетевых коммутаторов. Традиционный распределённый инференс больших моделей сильно зависит от эксклюзивных высокоскоростных сетевых решений NVIDIA, что ведёт к высоким затратам на аппаратное обеспечение и проблемам с цепочками поставок. fabric-lib реализует децентрализацию на уровне аппаратного обеспечения, идеально совместим с сетевыми картами NVIDIA ConnectX-7 и нативно поддерживает недорогие Ethernet-карты AWS EFA, принадлежащие Amazon, полностью загружая сетевую пропускную способность между картами до 400 Гбит/с. В связи с физическими недостатками передачи данных в AWS EFA, Perplexity впервые внедрила механизм синхронизации счётчиков ImmCounter, который позволяет эффективно осуществлять «ноль копий» передачи данных без жестких предположений о порядке пакетов. Встроенная в библиотеку алгоритм распределения данных специально разработан для гибридных моделей MoE, позволяющий совмещать приём данных графическими картами с глубокой матричной обработкой, что значительно увеличивает вычислительную мощность на этапе декодирования. В реальных производственных условиях pplx-garden демонстрирует значительные инженерные преимущества. В рамках архитектуры с разъединённым инференсом библиотека сети обеспечивает быструю маршрутизацию кэшированных ключей и значений между узлами Prefill и Decoder. В асинхронных обучающих сценариях с усилением обучения достаточно всего 1,3 секунды для синхронизации и распространения весов модели с триллионными параметрами. Для устранения задержек при сегментации текста pplx-garden совместно с открытым исходным кодом выпустила переработанный на Rust сегментатор pplx-unigram, который сокращает нагрузку на CPU в 5-6 раз и устраняет узкие места в производительности при сегментации и работе с векторными моделями. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GlassDomeRoaming
· 5ч назад
pplx-unigram снизил потребление CPU в 5-6 раз, сегментация наконец-то перестала быть скрытым узким местом, раньше профилирование показало, насколько это безумно.
Посмотреть ОригиналОтветить0
RefrigeratorMagnetContract
· 5ч назад
400Gbps пропускная способность выглядит круто, но fabric-lib без привязки к оборудованию — это настоящее освобождение для обслуживания.
Посмотреть ОригиналОтветить0
GateUser-3e7da866
· 5ч назад
MoE распределение данных и вычисления перекрываются, использование аппаратных ресурсов достигает максимума, эта идея дизайна заслуживает внимательного изучения исходного кода.
Посмотреть ОригиналОтветить0
  • Закреплено