Meta e outros lançam método de aceleração BLT, reduzindo a largura de banda da memória em até 92%

AIMPACT mensagem, 12 de maio (UTC+8), a equipa de investigação do Meta, Universidade de Stanford e Universidade de Washington lançou recentemente três novos métodos que aceleram significativamente a velocidade de inferência do Byte Latent Transformer (BLT). O BLT é um modelo de linguagem que opera diretamente sobre bytes brutos, agrupando bytes dinamicamente em patches de comprimento variável através de uma estratégia de divisão baseada em entropia, correspondendo ao desempenho de modelos baseados em tokenização. Como a decodificação autoregressiva byte a byte exige múltiplas passagens para frente, a largura de banda de memória torna-se o principal gargalo. Os três métodos de aceleração são os seguintes: O BLT-D usa difusão discreta em blocos, treinando com previsão do próximo byte e perda de previsão de bytes mascarados, gerando múltiplos bytes por passagem, com um tamanho de bloco de 4, onde a largura de banda de memória é inferior à metade do BLT, e um tamanho de bloco de 16, que reduz a 87-92%; O BLT-S utiliza um decodificador local leve como um rascunho especulativo, sem necessidade de treino adicional, produzindo resultados idênticos ao BLT padrão sob decodificação gananciosa, podendo reduzir a largura de banda de memória em 77%; O BLT-DV combina rascunho difuso com validação autoregressiva, usando pesos do modelo bidirecionalmente, reduzindo a largura de banda de memória em 81%. Todos os métodos beneficiam-se mais em tarefas de tradução, sendo que tarefas de codificação são mais sensíveis ao tamanho do bloco. Nos testes de benchmark baseados em probabilidade, como ARC-Easy, ARC-Challenge, PIQA, HellaSwag, MMLU, o pontuação do BLT-D aproxima-se da linha de base do BLT, mantendo uma capacidade de inferência robusta.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar