Калифорнийский технологический институт выпустил открытый исходный код модели Bonsai с 1-битной архитектурой: 8 миллиардов параметров занимают всего 1,15 ГБ, и на iPhone достигается скорость обработки 44 токена/с

BlockBeatNews · 2026-04-01T03:50:53+00:00

Лаборатория искусственного интеллекта PrismML, основанная совместно с Бабаком Хасиби, который является соучредителем, выпустила серию больших языковых моделей Bonsai 1-bit. Флагманская модель Bonsai 8B занимает всего 1,15 ГБ памяти, содержит 8,2 миллиарда параметров и по сравнению с 16-битными моделями обеспечивает 14-кратное сжатие, при этом её способность к выводам сопоставима с 16-битными моделями. Модель открыта под лицензией Apache 2.0, собравшая 16,25 миллиона долларов финансирования, среди инвесторов — Khosla Ventures.

BlockBeatNews

2026-04-01 03:50:53

Генерация тезисов в процессе

Согласно мониторингу 1M AI News, AI-лаборатория PrismML, соучреждённая математиком Калифорнийского технологического института Babak Hassibi, завершила период скрытности и открыла исходный код серии 1-bit Bonsai крупномасштабных языковых моделей. Флагманская модель 1-bit Bonsai 8B имеет 8,2 млрд параметров, а расход памяти составляет всего 1,15 GB — примерно в 14 раз меньше, чем у моделей того же класса в формате 16-bit (около 16 GB). Веса открыто доступны для скачивания на HuggingFace по лицензии Apache 2.0, а также опубликованы две более компактные модели: 4B (0,5 GB) и 1,7B (0,24 GB).

Bonsai 8B — это сквозная (end-to-end) настоящая 1-bit модель: слои эмбеддингов, внимания, MLP и выходная голова целиком используют только представление весов через +1 или -1, без каких-либо высокоточных патчей. PrismML утверждает, что её способность к инференсу и пониманию языка на стандартных бенчмарках сопоставима со 16-bit моделями в полноточном формате. Основную математику сжатия команда разрабатывала в Caltech на протяжении нескольких лет; интеллектуальная собственность принадлежит Калифорнийскому технологическому институту, а PrismML является единственным эксклюзивным лицензиатом. Модель обучалась на Google v4 TPU.

Результаты замеров скорости: на M4 Pro Mac — 136 token/s, на RTX 4090 — 440 token/s, на iPhone 17 Pro Max — около 44 token/s; при этом стандартная 16-bit модель 8B не помещается ни на один iPhone. Энергопотребление снижено примерно в 4–5 раз по сравнению с 16-bit моделями. PrismML отмечает, что существующее железо не предназначено для 1-bit-инференса; преимущество по скорости и энергопотреблению в основном связано с тем, что сжатие уменьшает потребление памяти. Если в будущем появится аппаратное обеспечение, специально разработанное под 1-bit (нужны только сложение и вычитание, без умножения), эффективность можно будет повысить ещё на порядок.

PrismML завершила раунд SAFE и посевной раунд на 16,25 млн долларов; инвесторами выступают Khosla Ventures, Cerberus Capital и Калифорнийский технологический институт. Основатель Khosla Ventures Vinod Khosla говорит, что это «не просто небольшая итерация — это крупный технологический прорыв, математический прорыв, и это не просто очередная небольшая модель».

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков