Δ-Mem: Memória online eficiente para grandes modelos de linguagem

robot
Geração do resumo em andamento
ME News Notícias, 16 de maio (UTC+8), pesquisadores propuseram o Δ-Mem, um sistema de memória online eficiente projetado especificamente para grandes modelos de linguagem.
Este sistema reduz significativamente o uso de memória ao armazenar e atualizar apenas as mudanças incrementais nas ativações do modelo, em vez do estado completo das ativações.
Experimentos mostram que o Δ-Mem pode reduzir o uso de memória em até 70%, mantendo praticamente a mesma qualidade na saída do modelo.
Este método ajuda a implantar e executar grandes modelos de linguagem em ambientes com recursos limitados, aumentando a viabilidade de inferência online e aprendizado contínuo.
(Origem: AiHot)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 10
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
DeltaSmile
· 1h atrás
A qualidade de saída sem perdas é a mais importante, muitos esquemas de compressão sacrificam muita precisão.
Ver originalResponder0
PickingUpAirdropsInTheFog
· 6h atrás
A capacidade de aprendizado contínuo é subestimada, mas é muito importante para modelos personalizados.
Ver originalResponder0
InvisibleMarketMaker
· 6h atrás
Uma redução de 70% na memória é realmente impressionante, mas em cenários online, o custo de cálculo para atualizações incrementais não poderia se tornar um novo gargalo?
Ver originalResponder0
ColdStartUnderTheAurora
· 6h atrás
Finalmente, alguém está levando a sério a resolução do problema da parede de memória dos LLMs, aguardando os próximos passos.
Ver originalResponder0
HotAirBalloonCrossingMountains
· 6h atrás
A sensação de atenção dispersa pode ser combinada com o uso de atenção esparsa, compressão dupla.
Ver originalResponder0
PettyLp
· 6h atrás
O sistema de memória online tem uma localização muito precisa, preenchendo a lacuna na fase de raciocínio.
Ver originalResponder0
CheckTheBlockchainBefore
· 6h atrás
Como é a compatibilidade de métodos de ajuste fino eficientes em parâmetros, como o Curious e o LoRA.
Ver originalResponder0
ProtocolPaladin
· 6h atrás
Se esse projeto for de código aberto, a comunidade poderá criar muitas variações.
Ver originalResponder0
PerpPessimist
· 6h atrás
Qual conjunto de avaliação foi usado nos experimentos? GLUE ou tarefas de raciocínio mais complexas.
Ver originalResponder0
TokenomicsMechanic
· 6h atrás
70% é o limite superior ou a média? O desempenho varia muito com diferentes tamanhos de modelos.
Ver originalResponder0
Ver projetos
  • Fixado