Meta et al. lancent la méthode d'accélération BLT, la bande passante mémoire étant réduite jusqu'à 92 %

AIMPACT message, le 12 mai (UTC+8), une équipe de recherche de Stanford, de l’Université de Washington et de Meta a récemment présenté trois nouvelles méthodes pour accélérer significativement la vitesse d’inférence de Byte Latent Transformer (BLT). BLT est un modèle de langage qui fonctionne directement sur des octets bruts, regroupant dynamiquement les octets en patches de longueur variable selon une stratégie de segmentation basée sur l’entropie, afin de correspondre aux performances des modèles de segmentation en mots. En raison du décodage autoregressif byte par byte nécessitant plusieurs passes en avant, la bande passante mémoire devient le principal goulot d’étranglement.
Les trois méthodes d’accélération sont les suivantes :
BLT-D utilise une diffusion discrète par blocs, entraînée avec une combinaison de prédiction du prochain octet et de perte de prédiction d’octets masqués, générant plusieurs octets à chaque passage en avant ; lorsque la taille du bloc est de 4, la bande passante mémoire est inférieure de moitié à celle de BLT, et lorsque la taille du bloc est de 16, elle est réduite de 87-92 % ;
BLT-S utilise un décodeur local léger comme brouillon spéculatif, sans entraînement supplémentaire, produisant une sortie identique à celle de BLT standard en décodage gourmand, permettant une réduction de 77 % de la bande passante mémoire ;
BLT-DV combine la diffusion pour le brouillon et la vérification autoregressive, utilisant les mêmes poids de modèle dans les deux sens, réduisant la bande passante mémoire de 81 %.
Toutes ces méthodes bénéficient principalement aux tâches de traduction, tandis que les tâches d’encodage sont plus sensibles à la taille des blocs. Sur des benchmarks basés sur la probabilité tels que ARC-Easy, ARC-Challenge, PIQA, HellaSwag, MMLU, etc., le score de BLT-D est proche de celui de la ligne de base BLT, et la capacité d’inférence reste robuste.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler