PrismML推出1.58比特模型Ternary Bonsai,參數縮減9倍智能度反超同類

robot
摘要生成中
ME 新聞消息,4 月 17 日(UTC+8),據 動察 Beating 監測,PrismML 發布 Ternary Bonsai 系列語言模型,通過 1.58 比特(ternary weights)技術,在保持高性能的同時將模型顯存佔用縮減至 16 比特模型的九分之一。該系列包含 8B、4B 和 1.7B 三種參數規模,現已在 Hugging Face 開源並支持蘋果設備原生運行。 所謂 1.58 比特模型,是指將神經網絡中的權重限制在 {-1, 0, +1} 三個值。相比此前追求極致壓縮的 1 比特模型(權重僅為 {-1, +1}),引入「0」值能夠有效剔除冗餘連接,讓模型在極小的體積下依然保留複雜的推理能力。此次發布的 Ternary Bonsai 8B 權重文件僅 1.75 GB,其基準測試均分達到 75.5,不僅比自家的 1 比特版本高出 5 分,甚至在「智能密度」(每 GB 顯存貢獻的性能)上大幅領先 Qwen3 等同類稠密模型。 能效比和運行速度是該系列的另一核心優勢。在 iPhone 17 Pro Max 上,8B 版本運行速度可達 27 tok/s,能效比提升約 3 至 4 倍。這對於需要在手機、筆記本等端側設備上部署高性能 AI 的開發者而言,意味著可以用極小的內存代價換取接近完整精度模型的智能表現。 目前,Ternary Bonsai 模型已在 Apple 設備上通過 MLX 框架實現原生支持。模型權重採用 Apache 2.0 協議分發。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 7
  • 7
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
RouterRunner
· 2小時前
75.5分領先同類,不過和全精度比差距多少?有沒有消融實驗看看
查看原文回復0
霓虹融冰淇淋
· 2小時前
顯存砍到1/9,邊緣部署成本骤降,感覺端側AI的拐點真來了
查看原文回復0
GateUser-c29c3db9
· 2小時前
iPhone 17 Pro Max 27 tok/s,蘋果芯片的NPU終於被榨乾了,MLX生態要起飛
查看原文回復0
雨后撤单侠
· 2小時前
Bonsai這名字起得好,剪枝剪到只剩三值,模型確實像盆景一樣精修出來的
查看原文回復0
TvlTeaTime
· 2小時前
Apache 2.0開源好評,但好奇訓練是怎麼做的,三值權重反向傳播怎麼搞
查看原文回復0
GateUser-8ca669fd
· 2小時前
三值量化{-1,0,+1},老論文裡的思路落地了,PrismML這波工程化做得漂亮
查看原文回復0
BugBountyBuddy
· 2小時前
1.75GB跑8B?這壓縮率有點離譜,手機本地跑大模型終於不是夢了
查看原文回復0