ME News Noticias, 16 de mayo (UTC+8), los investigadores propusieron Δ-Mem, un sistema de memoria en línea eficiente diseñado específicamente para grandes modelos de lenguaje. Este sistema reduce significativamente el uso de memoria al almacenar y actualizar solo los cambios incrementales en las activaciones del modelo, en lugar de los estados completos de activación. Los experimentos muestran que Δ-Mem puede reducir el uso de memoria en hasta un 70%, manteniendo prácticamente la calidad de la salida del modelo. Este método ayuda a desplegar y ejecutar grandes modelos de lenguaje en entornos con recursos limitados, mejorando la viabilidad en escenarios de inferencia en línea y aprendizaje continuo. (Fuente: AiHot)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

12 me gusta

Recompensa
12
10
2
Compartir

Comentar

Añadir un comentario

DeltaSmile

· hace2h

La calidad de salida sin pérdida es la más importante, muchas soluciones de compresión sacrifican demasiada precisión.

Ver originalResponder0

PickingUpAirdropsInTheFog

· hace8h

La mejora de la capacidad de aprendizaje continuo está subestimada, es muy importante para los modelos personalizados.

Ver originalResponder0

InvisibleMarketMaker

· hace8h

Una reducción del 70% en el uso de memoria es realmente sorprendente, pero en escenarios en línea, ¿el costo computacional de las actualizaciones incrementales no podría convertirse en un nuevo cuello de botella?

Ver originalResponder0

ColdStartUnderTheAurora

· hace8h

Finalmente alguien está abordando seriamente el problema de la pared de memoria de los LLM, espero con interés el trabajo futuro.

Ver originalResponder0

HotAirBalloonCrossingMountains

· hace8h

Se puede usar la atención dispersa y la atención esparcida en conjunto, compresión doble.

Ver originalResponder0

PettyLp

· hace8h

El sistema de memoria en línea tiene una posición muy precisa, llena el vacío en la etapa de inferencia.

Ver originalResponder0

CheckTheBlockchainBefore

· hace8h

¿Cómo es la compatibilidad de métodos de ajuste fino eficientes en parámetros como la curiosidad y LoRA?

Ver originalResponder0

ProtocolPaladin

· hace8h

Si esta dirección se abre al código abierto, la comunidad podrá experimentar muchas variaciones.

Ver originalResponder0

PerpPessimist

· hace8h

¿Con qué conjunto de evaluación de experimentos? ¿GLUE o tareas de razonamiento más complejas?

Ver originalResponder0

TokenomicsMechanic

· hace8h

¿El 70% es el límite superior o el promedio? ¿Las diferencias de rendimiento son grandes en diferentes escalas de modelos?

Ver originalResponder0

Temas de actualidad
Ver más
#
IntroducingGateStocks
34.49M Popularidad
#
WinGoldBarsWithGrowthPoints
1.26M Popularidad
#
IsraelStrikesIranBTCPlunges
51.69K Popularidad
#
ArthurHayesSeesHYPEOvertakingSOL
18.18M Popularidad
#
USIranNegotiationGame
9.57M Popularidad

Fijado

Δ-Mem：Memoria en línea eficiente para modelos de lenguaje grandes

Temas de actualidad

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

ArthurHayesSeesHYPEOvertakingSOL

USIranNegotiationGame

Fijado