Каліфорнійський технологічний інститут відкритого коду справжня модель 1-біт Bonsai: 8B параметрів всього 1,15 ГБ, працює на iPhone з швидкістю 44 токени/с

BlockBeatNews · 2026-04-01T03:50:53+00:00

AI-лабораторія PrismML, співзаснована Бабаком Хассібі з Каліфорнійського технологічного інституту, випустила серію великих мовних моделей Bonsai 1-біт. Флагманська модель Bonsai 8B займає всього 1,15 ГБ пам’яті, має 8,2 мільярди параметрів і у 14 разів менша за 16-бітні моделі за розміром, при цьому її здатність до обробки запитів відповідає 16-бітним моделям. Модель відкрито доступна під ліцензією Apache 2.0, зібравши 16,25 мільйонів доларів фінансування, серед інвесторів — Khosla Ventures.

BlockBeatNews

2026-04-01 03:50:53

Генерація анотацій у процесі

За даними моніторингу 1M AI News, AI-лабораторія PrismML, заснована спільно математиком Caltech Babak Hassibi, завершує період інкогніто та відкриває код серії 1-bit Bonsai LLM. Флагманська модель 1-bit Bonsai 8B має 8.2 млрд параметрів, займає лише 1.15 GB пам’яті та стискається приблизно в 14 разів порівняно з 16-bit моделями того ж класу (близько 16 GB). Ваги відкрито доступні для завантаження на HuggingFace під ліцензією Apache 2.0, а також опубліковано дві менші моделі: 4B (0.5 GB) і 1.7B (0.24 GB).

Bonsai 8B — це end-to-end справжня 1-bit модель: вбудувальний шар, attention-шари, MLP-шари та вихідна голівка — усі представляють ваги лише як +1 або -1, без жодних високоточних патчів. PrismML стверджує, що за результатами на стандартних бенчмарках можливості виведення (inference) та розуміння мови у неї на рівні 16-bit моделей повної точності. Ключова стиснювальна математика роками розроблялася командою в Caltech, а права інтелектуальної власності належать Caltech; PrismML є єдиним ексклюзивним ліцензіатом. Модель навчали на TPU v4 від Google.

Результати на практиці: 136 token/s на M4 Pro Mac, 440 token/s на RTX 4090, приблизно 44 token/s на iPhone 17 Pro Max, тоді як стандартна 16-bit 8B модель не поміщається жодним iPhone. Енергоспоживання знижене приблизно у 4-5 разів порівняно з 16-bit моделлю. PrismML зазначає, що наявне обладнання не створене для 1-bit inference, а переваги за швидкістю та енергоефективністю головним чином походять від зменшеного обсягу пам’яті; якщо в майбутньому з’явиться обладнання, спеціально розроблене під 1-bit (потрібні лише додавання та віднімання, без множення), ефективність може зрости ще на порядок.

PrismML завершила раунд SAFE та посівне фінансування на 16.25 млн доларів США; інвесторами є Khosla Ventures, Cerberus Capital та Caltech. Vinod Khosla, співзасновник Khosla Ventures, каже, що це «не невелика ітерація, а значний технологічний прорив, математичний прорив — не просто чергова маленька модель».

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків