Калифорнийский технологический институт представил открытый исходный код модели Bonsai: 8 миллиардов параметров всего 1,15 ГБ, работает на iPhone со скоростью 44 токена/с

CoinNetwork · 2026-04-01T05:54:16+00:00

Лаборатория искусственного интеллекта PrismML, основанная совместно с математиком из Калифорнийского технологического института Бабаком Хасиби, выпустила серию больших языковых моделей 1-bit Bonsai. Флагманская модель Bonsai 8B поддерживает 8.2 миллиарда параметров, занимает всего 1.15 ГБ памяти, что в 14 раз меньше, а её производительность сопоставима с 16-битными моделями, при этом обладает заметными преимуществами по скорости и энергопотреблению. Модель обучалась на Google TPU и привлекла финансирование в размере 16,25 миллиона долларов.

CoinNetwork

2026-04-01 05:54:16

Генерация тезисов в процессе

Сообщение из Coin Bureau. Согласно мониторингу 1M AI News, лаборатория PrismML, основанная совместно математиком Бабаком Хасибби из Калифорнийского технологического института, завершила период скрытности и открыла исходный код серии 1-bit Bonsai для больших языковых моделей. Флагманская модель 1-bit Bonsai 8B имеет 8,2 млрд параметров, при этом потребление памяти составляет лишь 1,15 ГБ — примерно в 14 раз меньше, чем у 16-bit моделей того же класса (около 16 ГБ). Веса доступны для открытой загрузки на HuggingFace по лицензии Apache 2.0, а также опубликованы две более компактные модели: 4B (0,5 ГБ) и 1,7B (0,24 ГБ). Bonsai 8B — это end-to-end настоящая 1-bit модель: встраивающий слой, слой внимания, слой MLP и выходная голова целиком представлены весами только как +1 или -1, без каких-либо высокоточных патчей. PrismML утверждает, что по возможностям вывода и понимания языка в стандартных бенчмарках она сопоставима с 16-bit моделями полной точности. Ключевую компрессионную математику команда разрабатывала на протяжении нескольких лет в Калифорнийском технологическом институте; интеллектуальные права принадлежат Калифорнийскому технологическому институту, а PrismML является единственным эксклюзивным лицензиатом. Модель обучали на Google v4 TPU. По измеренной скорости: на Google v4 TPU, используемом с помощью HuggingFace открытых загрузок, на M4 Pro Mac — 136 токенов в секунду, на RTX 4090 — 440 токенов в секунду, на iPhone 17 Pro Max — около 44 токенов в секунду, тогда как стандартная 16-bit модель 8B не помещается ни на один iPhone. Энергопотребление по сравнению с 16-bit моделью снижено примерно в 4–5 раз. PrismML указывает, что существующее оборудование не предназначено для 1-bit вывода, а преимущества по скорости и энергопотреблению в основном обусловлены уменьшением занимаемой памяти; если в будущем появится оборудование, специально разработанное для 1-bit (достаточно операций сложения и вычитания, без умножения), эффективность может вырасти еще на порядок. PrismML завершила раунд SAFE и посевное финансирование на 16,25 млн долларов; инвесторы — Khosla Ventures, Cerberus Capital и Калифорнийский технологический институт. Основатель Khosla Ventures Винод Кхосла говорит, что это «не просто небольшая итерация, а крупный технологический прорыв — математический прорыв, а не просто еще одна маленькая модель».

SAFE3,28%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков