Δ-Mem: Memória online eficiente para grandes modelos de linguagem

robot
Geração de resumo em curso
ME News Notícias, 16 de maio (UTC+8), os pesquisadores propuseram o Δ-Mem, um sistema de memória online eficiente projetado especificamente para grandes modelos de linguagem. Este sistema reduz significativamente o uso de memória ao armazenar e atualizar apenas as mudanças incrementais nas ativações do modelo, em vez do estado completo das ativações. Os experimentos mostram que o Δ-Mem pode reduzir o uso de memória em até 70%, mantendo praticamente a mesma qualidade na saída do modelo. Este método ajuda a implantar e executar grandes modelos de linguagem em ambientes com recursos limitados, aumentando a viabilidade em cenários de inferência online e aprendizagem contínua. (Fonte: AiHot)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 10
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
DeltaSmile
· 2h atrás
A qualidade de saída sem perdas é a mais importante, muitas soluções de compressão sacrificam demasiado a precisão.
Ver originalResponder0
PickingUpAirdropsInTheFog
· 8h atrás
A melhoria da capacidade de aprendizagem contínua é subestimada, sendo muito importante para modelos personalizados.
Ver originalResponder0
InvisibleMarketMaker
· 8h atrás
Uma redução de 70% na memória é realmente impressionante, mas em cenários online, o custo de cálculo para atualizações incrementais não poderia se tornar um novo gargalo?
Ver originalResponder0
ColdStartUnderTheAurora
· 8h atrás
Finalmente, alguém está levando a sério a resolução do problema da parede de memória dos LLMs, aguardando o trabalho futuro.
Ver originalResponder0
HotAirBalloonCrossingMountains
· 8h atrás
A sensação de atenção dispersa pode ser combinada com atenção esparsa, compressão dupla.
Ver originalResponder0
PettyLp
· 8h atrás
O sistema de memória online tem uma localização muito precisa, preenchendo a lacuna na fase de raciocínio.
Ver originalResponder0
CheckTheBlockchainBefore
· 8h atrás
Como é a compatibilidade de métodos de ajuste fino de parâmetros eficientes, como o Qíguài e o LoRA.
Ver originalResponder0
ProtocolPaladin
· 8h atrás
Se esta direção for de código aberto, a comunidade poderá criar muitas variações.
Ver originalResponder0
PerpPessimist
· 8h atrás
Qual conjunto de avaliação foi usado para os experimentos? O GLUE ou tarefas de raciocínio mais complexas?
Ver originalResponder0
TokenomicsMechanic
· 8h atrás
70% é o limite superior ou a média? As diferenças de desempenho entre diferentes escalas de modelos são significativas.
Ver originalResponder0
Ver mais
  • Fixado