Caltech lanza Bonsai, un modelo de 1 bit de código abierto: 8 mil millones de parámetros con solo 1.15GB, logrando 44 tokens/s en iPhone

AirdropBlackHole · 2026-04-01T04:21:17+00:00

PrismML ha presentado los modelos de lenguaje grandes de código abierto Bonsai de 1 bit, en particular el modelo de 8B con 8.2 mil millones de parámetros, comprimiendo significativamente el uso de memoria mientras iguala el rendimiento de los modelos tradicionales de 16 bits.

AirdropBlackHole

2026-04-01 04:21:17

Generación de resúmenes en curso

Según 1M AI News, el laboratorio de IA PrismML, cofundado por el matemático de Caltech Babak Hassibi, ha salido del modo sigiloso y ha lanzado la serie de modelos de lenguaje de código abierto 1-bit Bonsai. El modelo insignia, 1-bit Bonsai 8B, cuenta con 8.2 mil millones de parámetros y ocupa solo 1.15 GB de memoria, lo cual es aproximadamente 14 veces más comprimido que modelos comparables de 16 bits (alrededor de 16 GB). Los pesos están disponibles para su descarga bajo la licencia Apache 2.0 en HuggingFace, junto con dos modelos más pequeños: 4B (0.5 GB) y 1.7B (0.24 GB). Bonsai 8B es un modelo real de 1-bit de extremo a extremo: la capa de embeddings, la capa de atención, la capa MLP y la cabeza de salida representan todos los pesos usando únicamente +1 o -1, sin parches de alta precisión. PrismML afirma que sus capacidades de inferencia y comprensión del lenguaje en puntos de referencia estándar son comparables a las de modelos completos de 16 bits con precisión total. La matemática central de la compresión fue desarrollada por el equipo durante varios años en Caltech, y la propiedad intelectual es de Caltech, lo que convierte a PrismML en el único licenciatario exclusivo. El modelo se entrenó usando Google v4 TPU. Las velocidades medidas incluyen 136 tokens/s en un M4 Pro Mac, 440 tokens/s en una RTX 4090 y aproximadamente 44 tokens/s en un iPhone 17 Pro Max, mientras que los modelos estándar de 16 bits 8B no pueden cargarse en ningún iPhone. El consumo de energía se reduce aproximadamente entre 4 y 5 veces en comparación con los modelos de 16 bits. PrismML señala que el hardware existente no está diseñado para la inferencia de 1-bit, y que las ventajas de velocidad y energía provienen principalmente del menor uso de memoria; si en el futuro surge hardware específicamente diseñado para operaciones de 1-bit (que requiere solo suma y resta, sin multiplicación), la eficiencia podría mejorar en un orden de magnitud. PrismML ha completado $16.25 millones en financiación SAFE y de semilla, con inversores que incluyen Khosla Ventures, Cerberus Capital y Caltech. Vinod Khosla, fundador de Khosla Ventures, dijo que “esto no es una iteración menor, sino un avance tecnológico significativo, un avance matemático, no solo otro modelo pequeño más.”

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta