Meta y otros lanzan el método de aceleración BLT, reduciendo el ancho de banda de memoria hasta en un 92%

AIMPACT mensaje, 12 de mayo (UTC+8), un equipo de investigación de Meta, la Universidad de Stanford y la Universidad de Washington anunció recientemente tres nuevos métodos que aceleran significativamente la velocidad de inferencia de Byte Latent Transformer (BLT). BLT es un modelo de lenguaje que opera directamente sobre bytes originales, agrupando dinámicamente los bytes en parches de longitud variable mediante una estrategia de partición basada en entropía, que coincide con el rendimiento de los modelos basados en segmentación de palabras. Debido a que la decodificación autoregresiva byte por byte requiere múltiples pases hacia adelante, el ancho de banda de memoria se convierte en un cuello de botella principal. Los tres métodos de aceleración son los siguientes: BLT-D utiliza difusión discreta por bloques, entrenando combinando la predicción del siguiente byte y la pérdida de predicción de bytes enmascarados, generando múltiples bytes en cada pase hacia adelante; cuando el tamaño del bloque es 4, el ancho de banda de memoria es menor a la mitad del de BLT, y cuando el tamaño del bloque es 16, se reduce en un 87-92%; BLT-S utiliza un decodificador local liviano como un borrador especulativo, sin necesidad de entrenamiento adicional, produciendo resultados idénticos a los de BLT estándar bajo decodificación codiciosa, logrando una reducción del 77% en el ancho de banda de memoria; BLT-DV combina borradores de difusión y verificación autoregresiva, permitiendo que los mismos pesos del modelo se usen en ambas direcciones, reduciendo el ancho de banda de memoria en un 81%. Todos los métodos muestran mayores beneficios en tareas de traducción, mientras que las tareas de codificación son más sensibles al tamaño del bloque. En benchmarks basados en probabilidad como ARC-Easy, ARC-Challenge, PIQA, HellaSwag y MMLU, las puntuaciones de BLT-D se acercan a la línea base de BLT, manteniendo una capacidad de inferencia robusta.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado