ME News Notícias, 16 de maio (UTC+8), os pesquisadores propuseram o Δ-Mem, um sistema de memória online eficiente projetado especificamente para grandes modelos de linguagem. Este sistema reduz significativamente o uso de memória ao armazenar e atualizar apenas as mudanças incrementais nas ativações do modelo, em vez do estado completo das ativações. Os experimentos mostram que o Δ-Mem pode reduzir o uso de memória em até 70%, mantendo praticamente a mesma qualidade na saída do modelo. Este método ajuda a implantar e executar grandes modelos de linguagem em ambientes com recursos limitados, aumentando a viabilidade em cenários de inferência online e aprendizagem contínua. (Fonte: AiHot)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

12 gostos

Recompensa
12
10
2
Partilhar

Comentar

Adicionar um comentário

DeltaSmile

· 2h atrás

A qualidade de saída sem perdas é a mais importante, muitas soluções de compressão sacrificam demasiado a precisão.

Ver originalResponder0

PickingUpAirdropsInTheFog

· 8h atrás

A melhoria da capacidade de aprendizagem contínua é subestimada, sendo muito importante para modelos personalizados.

Ver originalResponder0

InvisibleMarketMaker

· 8h atrás

Uma redução de 70% na memória é realmente impressionante, mas em cenários online, o custo de cálculo para atualizações incrementais não poderia se tornar um novo gargalo?

Ver originalResponder0

ColdStartUnderTheAurora

· 8h atrás

Finalmente, alguém está levando a sério a resolução do problema da parede de memória dos LLMs, aguardando o trabalho futuro.

Ver originalResponder0

HotAirBalloonCrossingMountains

· 8h atrás

A sensação de atenção dispersa pode ser combinada com atenção esparsa, compressão dupla.

Ver originalResponder0

PettyLp

· 8h atrás

O sistema de memória online tem uma localização muito precisa, preenchendo a lacuna na fase de raciocínio.

Ver originalResponder0

CheckTheBlockchainBefore

· 8h atrás

Como é a compatibilidade de métodos de ajuste fino de parâmetros eficientes, como o Qíguài e o LoRA.

Ver originalResponder0

ProtocolPaladin

· 8h atrás

Se esta direção for de código aberto, a comunidade poderá criar muitas variações.

Ver originalResponder0

PerpPessimist

· 8h atrás

Qual conjunto de avaliação foi usado para os experimentos? O GLUE ou tarefas de raciocínio mais complexas?

Ver originalResponder0

TokenomicsMechanic

· 8h atrás

70% é o limite superior ou a média? As diferenças de desempenho entre diferentes escalas de modelos são significativas.

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
IntroducingGateStocks
34.49M Popularidade
#
WinGoldBarsWithGrowthPoints
1.26M Popularidade
#
IsraelStrikesIranBTCPlunges
51.69K Popularidade
#
ArthurHayesSeesHYPEOvertakingSOL
18.18M Popularidade
#
USIranNegotiationGame
9.57M Popularidade

Fixado

Δ-Mem: Memória online eficiente para grandes modelos de linguagem

Tópicos em destaque

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

ArthurHayesSeesHYPEOvertakingSOL

USIranNegotiationGame

Fixado