Tether AI 宣布将在 QVAC SDK 0.12.0 中集成開源 TurboQuant 實現。TurboQuant 最初由 Google Research 提出,可將大模型運行過程中所需的 KV Cache 記憶體壓縮最高 5 倍,從而支持更長的上下文、更大的文檔及更長時間的對話在本地設備運行。Tether 表示,該技術將適用於筆記本電腦、手機、邊緣設備及去中心化 AI 網絡,並作為其推動本地化與去中心化 AI 戰略的一部分。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 16
  • 2
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
薄荷清算预警
· 06-03 20:20
邊緣設備+去中心化網絡,這套組合拳打的是AI基礎設施的痛點
查看原文回復0
Echo of L2
· 06-03 03:30
TurboQuant開源+Tether集成,社區又能省不少顯存錢了
查看原文回復0
椰子壳里装Alpha
· 06-02 13:20
0.12.0什麼時候發?等一個release note看具體適配情況
查看原文回復0
倒影街角
· 06-01 14:00
如果能在压缩五倍的情况下仍保持精度,这项技术路线估计很快会被主流框架跟进
查看原文回復0
Leverage Latte
· 06-01 13:55
手機端長文檔對話終於不用雲端傳敏感數據了,隱私黨狂喜
查看原文回復0
镜面球反射
· 06-01 13:36
5倍壓縮意味着我的舊筆記本也能本地運行7B模型了?期待QVAC 0.12.0
查看原文回復0
GateUser-a9315d81
· 06-01 13:35
KV 快取壓縮5倍,推理延遲會增加多少?有基準測試嗎
查看原文回復0
GateUser-6857a9c9
· 06-01 13:35
去中心化AI網絡需要的就是這種邊緣優化,帶寬和存儲雙減負
查看原文回復0
GateUser-665eb149
· 06-01 13:35
Google Research 的底子+Tether的落地,这波组合有点意思
回復0
反向指标盆栽
· 06-01 13:35
終於能在手機上跑長上下文了,TurboQuant 這壓縮比確實香
查看原文回復0
查看更多