Caltech open source modelo de 1-bit Bonsai: 8B parámetros en solo 1.15GB, funcionando a 44 tokens/s en iPhone

BlockBeatNews · 2026-04-01T03:50:53+00:00

El laboratorio de IA PrismML, cofundado por Babak Hassibi de Caltech, ha lanzado la serie de modelos de lenguaje de gran tamaño Bonsai de 1-bit. El modelo insignia Bonsai 8B ocupa solo 1.15 GB de memoria, con 8.2 mil millones de parámetros, lo que representa una compresión de 14 veces en comparación con los modelos de 16 bits, manteniendo una capacidad de inferencia comparable a los modelos de 16 bits. El modelo es de código abierto bajo la licencia Apache 2.0, ha recaudado 16.25 millones de dólares en financiamiento, con inversores como Khosla Ventures.

BlockBeatNews

2026-04-01 03:50:53

Generación de resúmenes en curso

Según el monitoreo de 1M AI News, el laboratorio de IA PrismML cofundado por el matemático Babak Hassibi del California Institute of Technology (Caltech) ha salido de su fase de sigilo y ha lanzado de forma open source la serie de modelos de lenguaje Bonsai de 1-bit. El modelo insignia 1-bit Bonsai 8B tiene 8.200 millones de parámetros, y su uso de memoria es de solo 1,15 GB, lo que lo reduce aproximadamente 14 veces frente a los modelos 16-bit de su misma categoría (aprox. 16 GB). Los pesos se pueden descargar de forma abierta en HuggingFace bajo la licencia Apache 2.0, y también se publican dos modelos más pequeños: 4B (0,5 GB) y 1,7B (0,24 GB).

Bonsai 8B es un modelo real de 1-bit de extremo a extremo: la capa de embeddings, las capas de atención, la capa MLP y la cabeza de salida representan pesos únicamente con +1 o -1, sin ningún parche de alta precisión. PrismML afirma que su capacidad de inferencia y comprensión del lenguaje en evaluaciones estándar de referencia es comparable a la de un modelo de precisión completa de 16-bit. La compresión matemática central fue desarrollada por el equipo durante varios años en Caltech; la propiedad intelectual pertenece a Caltech y PrismML es el único licenciatario exclusivo. El modelo se entrenó con Google v4 TPU.

Velocidad medida: en una Mac M4 Pro, 136 tokens/s; en una RTX 4090, 440 tokens/s; y en un iPhone 17 Pro Max, aproximadamente 44 tokens/s, mientras que el modelo estándar 16-bit 8B no cabe en ningún iPhone. El consumo de energía se reduce aproximadamente 4-5 veces frente al modelo 16-bit. PrismML señala que el hardware actual no está diseñado para inferencia de 1-bit; la ventaja en velocidad y eficiencia energética proviene principalmente de la reducción del uso de memoria. Si en el futuro surge hardware diseñado específicamente para 1-bit (que solo requiere sumas y restas, sin multiplicaciones), la eficiencia aún podría mejorar otro orden de magnitud.

PrismML completó una ronda SAFE y de semilla por 16,25 millones de dólares; los inversionistas fueron Khosla Ventures, Cerberus Capital y Caltech. Vinod Khosla, fundador de Khosla Ventures, afirma que esto «no es una pequeña iteración, es un gran avance tecnológico, es un avance matemático, no solo otro modelo pequeño más».

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta