Δ-Mem:适用于大型语言模型的高效在线内存

robot
摘要生成中
ME News 消息,5 月 16 日(UTC+8),研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。(来源:AiHot)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
Gas费别闹
· 6小时前
放弃完整激活状态...推理时重建开销大吗
回复0
藤蔓几何学
· 13小时前
实验数据在哪看?想看看具体任务上的损失
回复0
Airdrop Mile Counter
· 13小时前
Δ-Mem + 量化,是不是能把显存压到极限
回复0
YieldSpring
· 13小时前
增量存储这个思路很妙,有点像人脑只记变化的部分
回复0
Degen Librarian
· 13小时前
持续学习场景下会不会有累积误差问题?
回复0
松木流动池
· 13小时前
这要是集成到vLLM里,吞吐量得飞升
回复0
量化但不装
· 13小时前
70%内存下降太香了,边缘设备终于能跑大模型了
回复0
  • 置顶