PrismML推出1.58比特模型Ternary Bonsai,参数缩减9倍智能度反超同类

robot
摘要生成中
ME News 消息,4 月 17 日(UTC+8),据 动察 Beating 监测,PrismML 发布 Ternary Bonsai 系列语言模型,通过 1.58 比特(ternary weights)技术,在保持高性能的同时将模型显存占用缩减至 16 比特模型的九分之一。该系列包含 8B、4B 和 1.7B 三种参数规模,现已在 Hugging Face 开源并支持苹果设备原生运行。 所谓 1.58 比特模型,是指将神经网络中的权重限制在 {-1, 0, +1} 三个值。相比此前追求极致压缩的 1 比特模型(权重仅为 {-1, +1}),引入「0」值能够有效剔除冗余连接,让模型在极小的体积下依然保留复杂的推理能力。此次发布的 Ternary Bonsai 8B 权重文件仅 1.75 GB,其基准测试均分达到 75.5,不仅比自家的 1 比特版本高出 5 分,甚至在「智能密度」(每 GB 显存贡献的性能)上大幅领先 Qwen3 等同类稠密模型。 能效比和运行速度是该系列的另一核心优势。在 iPhone 17 Pro Max 上,8B 版本运行速度可达 27 tok/s,能效比提升约 3 至 4 倍。这对于需要在手机、笔记本等端侧设备上部署高性能 AI 的开发者而言,意味着可以用极小的内存代价换取接近完整精度模型的智能表现。 目前,Ternary Bonsai 模型已在 Apple 设备上通过 MLX 框架实现原生支持。模型权重采用 Apache 2.0 协议分发。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 8
  • 7
  • 分享
评论
请输入评论内容
请输入评论内容
钱包体检师
· 11小时前
三值量化+MLX原生,苹果生态闭环了,安卓阵营压力山大
回复0
RouterRunner
· 16小时前
75.5分领先同类,不过和全精度比差距多少?有没有消融实验看看
回复0
霓虹融冰淇淋
· 16小时前
显存砍到1/9,边缘部署成本骤降,感觉端侧AI的拐点真来了
回复0
GateUser-c29c3db9
· 16小时前
iPhone 17 Pro Max 27 tok/s,苹果芯片的NPU终于被榨干了,MLX生态要起飞
回复0
雨后撤单侠
· 16小时前
Bonsai这名字起得好,剪枝剪到只剩三值,模型确实像盆景一样精修出来的
回复0
TvlTeaTime
· 16小时前
Apache 2.0开源好评,但好奇训练是怎么做的,三值权重反向传播怎么搞
回复0
GateUser-8ca669fd
· 16小时前
三值量化{-1,0,+1},老论文里的思路落地了,PrismML这波工程化做得漂亮
回复0
BugBountyBuddy
· 16小时前
1.75GB跑8B?这压缩率有点离谱,手机本地跑大模型终于不是梦了
回复0