Perplexity base de inferencia de código abierto pplx-garden, eludir el impuesto a las redes de Nvidia para lograr comunicación ultrarrápida en múltiples tarjetas

robot
Generación de resúmenes en curso
ME AI Mensaje, según la monitorización de Beating, el gigante de los motores de búsqueda Perplexity AI ha lanzado oficialmente en código abierto la herramienta de infraestructura de inferencia de alto rendimiento para uso en producción pplx-garden. El núcleo del proyecto es la biblioteca de comunicación punto a punto de alto rendimiento desarrollada internamente en Rust, fabric-lib (también conocida como TransferEngine), diseñada para romper la vinculación hardware exclusiva del protocolo de comunicación propietario de NVIDIA, ayudando a los desarrolladores a lograr una ejecución ultrarrápida de modelos de billones de parámetros en clústeres heterogéneos de múltiples tarjetas gráficas sin necesidad de comprar conmutadores de red exclusivos y costosos. La inferencia de modelos grandes distribuidos tradicionalmente depende en extremo de la red de comunicación de alta velocidad exclusiva de NVIDIA, lo que resulta en costos de despliegue de hardware muy altos y en una dependencia de la cadena de suministro. fabric-lib logra la desvinculación a nivel de hardware, no solo adaptándose perfectamente a las tarjetas de red NVIDIA ConnectX-7, sino que también soporta de forma nativa las económicas tarjetas de red Ethernet tradicionales de AWS EFA, aumentando directamente el ancho de banda de red entre múltiples tarjetas hasta 400 Gbps. Para abordar las deficiencias físicas del envío fuera de orden de AWS EFA, Perplexity innovó con el mecanismo de sincronización de contadores ImmCounter, que permite un flujo de datos eficiente de «cero copias» sin hacer hipótesis rígidas sobre el orden de los paquetes. La biblioteca de comunicación incorpora un algoritmo de distribución de datos diseñado específicamente para modelos expertos híbridos MoE, que superpone profundamente la recepción de datos en la tarjeta gráfica con los cálculos matriciales, maximizando el espacio de potencia de cálculo en la fase de decodificación. En producción real, pplx-garden aporta beneficios de ingeniería sumamente notables. En arquitecturas de inferencia desacopladas, la biblioteca de red logra una rápida programación del caché de claves y valores entre los nodos Prefill y Decoder. En entrenamiento de aprendizaje por refuerzo asíncrono, se puede completar la sincronización y distribución de pesos de modelos de billones de parámetros en solo 1.3 segundos. Para resolver la latencia de cálculo en la fase de tokenización, pplx-garden ha lanzado un tokenizador pplx-unigram reescrito en Rust, que reduce el consumo de CPU en 5 a 6 veces, eliminando los cuellos de botella de rendimiento en la tokenización y en modelos vectoriales. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GlassDomeRoaming
· hace4h
pplx-unigram reduce el consumo de CPU en 5-6 veces, la segmentación de palabras finalmente ya no es un cuello de botella invisible, solo después de hacer un perfil antes supe lo absurdo que era.
Ver originalResponder0
RefrigeratorMagnetContract
· hace4h
400Gbps de ancho de banda se ve genial, pero que fabric-lib elimine la vinculación con hardware es realmente una liberación para el mantenimiento.
Ver originalResponder0
GateUser-3e7da866
· hace4h
La distribución de datos y el cálculo superpuesto en MoE, maximizando la utilización del hardware, esta idea de diseño vale la pena analizar en el código fuente.
Ver originalResponder0
  • Fijado