A LLM a nível de byte finalmente teve avanços sérios, com 1,7B a conseguir aproximar-se do efeito de tokenização, a guerra de vocabulários pode estar a ficar obsoleta

Ver original
CoinNetwork
Nous Research confirma que os benefícios da segmentação podem ser simulados puramente por ByteDance, levando a uma grande inovação nos modelos de grande escala sem segmentação
Pesquisas da Nous Research afirmam que a dependência de longo prazo dos grandes modelos de linguagem em relação aos tokenizadores poderá ser substituída no futuro.
Testes controlados com 1,7 bilhões de parâmetros mostram que os benefícios do mecanismo de tokenização podem ser simulados na camada de bytes pura por meio de técnicas de engenharia.
Experimentos indicam que, em modelos nativos de bytes, aumentar o throughput e inserir fronteiras morfológicas podem reduzir significativamente a diferença em relação aos modelos de tokenização;
Sob a mesma capacidade computacional, a simulação de compressão melhora a quantidade de gradientes processados por passo, tornando-se a maior fonte de contribuição.
Ao sobrepor fronteiras de subpalavras aos bytes de entrada, foi estabelecida uma preferência de indução de efeito duradouro que não revela informações futuras.
Embora o efeito de sinergia de parâmetros maiores ainda precise ser verificado, com 1,7 bilhões de parâmetros, os benefícios de um vocabulário de palavras e previsão do próximo subpalavra são limitados.
Isso oferece uma abordagem inovadora para grandes modelos sem tokenização, devendo futuras arquiteturas focar em aumentar o throughput e incorporar explicitamente o conhecimento morfológico de forma que não revele informações futuras.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado