Tether AI 宣布将在 QVAC SDK 0.12.0 中集成开源 TurboQuant 实现。TurboQuant 最初由 Google Research 提出,可将大模型运行过程中所需的 KV Cache 内存压缩最高 5 倍,从而支持更长上下文、更大文档及更长时间对话在本地设备运行。Tether 表示,该技术将适用于笔记本电脑、手机、边缘设备及去中心化 AI 网络,并作为其推动本地化与去中心化 AI 战略的一部分。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 13
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
倒影街角
· 6小时前
压缩5倍还能保持精度的话,这技术路线估计很快会被主流框架跟进
回复0
Leverage Latte
· 6小时前
手机端长文档对话终于不用云端传敏感数据了,隐私党狂喜
回复0
镜面球反射
· 6小时前
5倍压缩意味着我的旧笔记本也能本地跑7B模型了?期待QVAC 0.12.0
回复0
GateUser-a9315d81
· 6小时前
KV Cache压缩5倍,推理延迟会涨多少?有benchmark吗
回复0
GateUser-6857a9c9
· 6小时前
去中心化AI网络需要的就是这种边缘优化,带宽和存储双减负
回复0
GateUser-665eb149
· 6小时前
Google Research 的底子+Tether的落地,这波组合有点意思
回复0
反向指标盆栽
· 6小时前
终于能在手机上跑长上下文了,TurboQuant 这压缩比确实香
回复0
Perpetual King
· 6小时前
冲就完了 👊
回复0
Perpetual King
· 6小时前
冲就完了 👊
回复0
Perpetual King
· 6小时前
冲就完了 👊
回复0
查看更多
  • 置顶