PrismML выпустила модель 1.58-бит Ternary Bonsai, параметры сокращены в 9 раз, интеллектуальность превосходит аналогичные модели

robot
Генерация тезисов в процессе
ME Новости, 17 апреля (UTC+8), по данным мониторинга 动察 Beating, PrismML выпустила языковую модель серии Ternary Bonsai, которая с помощью технологии 1.58 бита (ternary weights) сокращает объем памяти модели до одной девятой от 16-битной модели, сохраняя при этом высокую производительность. Эта серия включает модели с параметрами 8B, 4B и 1.7B, уже открыта на Hugging Face и поддерживает нативное выполнение на устройствах Apple.
Так называемая модель с 1.58 битами означает, что веса нейронной сети ограничены тремя значениями {-1, 0, +1}. По сравнению с ранее стремившейся к экстремальному сжатию моделью с 1 битом (веса только {-1, +1}), введение значения «0» позволяет эффективно исключать избыточные связи, что позволяет модели сохранять сложные способности рассуждения при очень небольшом объеме.
Общий размер файла весов Ternary Bonsai 8B составляет всего 1,75 ГБ, а средний балл по базовым тестам достигает 75,5, что на 5 баллов выше, чем у их собственной версии с 1 битом, и значительно превосходит такие модели, как Qwen3, по показателю «умной плотности» (производительность на ГБ видеопамяти).
Энергоэффективность и скорость работы — еще одни ключевые преимущества этой серии. На iPhone 17 Pro Max версия 8B достигает скорости до 27 токенов в секунду, повышая коэффициент энергоэффективности примерно в 3-4 раза. Это означает, что разработчики, желающие развернуть высокопроизводительный ИИ на мобильных устройствах, таких как смартфоны и ноутбуки, могут добиться почти полной точности модели при минимальных затратах памяти.
В настоящее время модели Ternary Bonsai уже поддерживаются нативно на устройствах Apple через фреймворк MLX. Веса модели распространяются по лицензии Apache 2.0.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 8
  • 7
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
WalletHealthInspector
· 8ч назад
Трехзначное квантование + нативный MLX, экосистема Apple замкнута, давление на Android-экосистему растет.
Посмотреть ОригиналОтветить0
RouterRunner
· 13ч назад
Опередил конкурентов на 75,5 баллов, но насколько уступает полной точности? Есть ли эксперимент по абляции для проверки?
Посмотреть ОригиналОтветить0
NeonFusionIceCream
· 13ч назад
Объем видеопамяти сокращен до 1/9, стоимость развертывания на краю резко снизилась, кажется, настал поворотный момент для AI на стороне устройства
Посмотреть ОригиналОтветить0
GateUser-c29c3db9
· 13ч назад
iPhone 17 Pro Max 27 ток/с, NPU на чипе Apple наконец-то выжали всё, экосистема MLX готова взлететь
Посмотреть ОригиналОтветить0
OrderCancellerAfterTheRain
· 13ч назад
Имя Bonsai придумано хорошо, обрезка так сильно сокращена, что остались только три значения, модель действительно выглядит так, как будто она искусно вылеплена как бонсай.
Посмотреть ОригиналОтветить0
TvlTeaTime
· 13ч назад
Apache 2.0 открытый исходный код заслуживает хорошей оценки, но интересно, как осуществляется обучение, и как реализована обратная связь с трехзначными весами
Посмотреть ОригиналОтветить0
GateUser-8ca669fd
· 13ч назад
Трёхзначное квантование {-1,0,+1}, идея из старых статей реализована, PrismML отлично реализовал этот инженерный подход
Посмотреть ОригиналОтветить0
BugBountyBuddy
· 13ч назад
1.75GB запускает 8B? Такой уровень сжатия немного невероятен, запуск больших моделей на мобильных устройствах наконец-то стал реальностью
Посмотреть ОригиналОтветить0
  • Закреплено