ME News Notícias, 16 de maio (UTC+8), pesquisadores propuseram o Δ-Mem, um sistema de memória online eficiente projetado especificamente para grandes modelos de linguagem.
Este sistema reduz significativamente o uso de memória ao armazenar e atualizar apenas as mudanças incrementais nas ativações do modelo, em vez do estado completo das ativações.
Experimentos mostram que o Δ-Mem pode reduzir o uso de memória em até 70%, mantendo praticamente a mesma qualidade na saída do modelo.
Este método ajuda a implantar e executar grandes modelos de linguagem em ambientes com recursos limitados, aumentando a viabilidade de inferência online e aprendizado contínuo.
(Origem: AiHot)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

12 Curtidas

Recompensa
12
10
2
Compartilhar

Comentário

Adicionar um comentário

DeltaSmile

· 1h atrás

A qualidade de saída sem perdas é a mais importante, muitos esquemas de compressão sacrificam muita precisão.

Ver originalResponder0

PickingUpAirdropsInTheFog

· 6h atrás

A capacidade de aprendizado contínuo é subestimada, mas é muito importante para modelos personalizados.

Ver originalResponder0

InvisibleMarketMaker

· 6h atrás

Uma redução de 70% na memória é realmente impressionante, mas em cenários online, o custo de cálculo para atualizações incrementais não poderia se tornar um novo gargalo?

Ver originalResponder0

ColdStartUnderTheAurora

· 6h atrás

Finalmente, alguém está levando a sério a resolução do problema da parede de memória dos LLMs, aguardando os próximos passos.

Ver originalResponder0

HotAirBalloonCrossingMountains

· 6h atrás

A sensação de atenção dispersa pode ser combinada com o uso de atenção esparsa, compressão dupla.

Ver originalResponder0

PettyLp

· 6h atrás

O sistema de memória online tem uma localização muito precisa, preenchendo a lacuna na fase de raciocínio.

Ver originalResponder0

CheckTheBlockchainBefore

· 6h atrás

Como é a compatibilidade de métodos de ajuste fino eficientes em parâmetros, como o Curious e o LoRA.

Ver originalResponder0

ProtocolPaladin

· 6h atrás

Se esse projeto for de código aberto, a comunidade poderá criar muitas variações.

Ver originalResponder0

PerpPessimist

· 6h atrás

Qual conjunto de avaliação foi usado nos experimentos? GLUE ou tarefas de raciocínio mais complexas.

Ver originalResponder0

TokenomicsMechanic

· 6h atrás

70% é o limite superior ou a média? O desempenho varia muito com diferentes tamanhos de modelos.

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
IntroducingGateStocks
34.48M Popularidade
#
WinGoldBarsWithGrowthPoints
1.24M Popularidade
#
IsraelStrikesIranBTCPlunges
51.69K Popularidade
#
StockTradingChallengeUpTo17000U
217.59K Popularidade
#
USIranNegotiationGame
9.36M Popularidade

Fixado

sitemap

Δ-Mem: Memória online eficiente para grandes modelos de linguagem

Tendências

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado