Caltech open source le modèle 1-bit Bonsai : 8 milliards de paramètres en seulement 1,15 Go, tournant à 44 tokens/s sur iPhone

BlockBeatNews · 2026-04-01T03:50:53+00:00

Le laboratoire d'IA PrismML, cofondé par Babak Hassibi du California Institute of Technology, a publié la série de grands modèles linguistiques 1-bit Bonsai. Le modèle phare Bonsai 8B ne nécessite que 1,15 Go de mémoire, avec 8,2 milliards de paramètres, ce qui représente une compression de 14 fois par rapport à un modèle 16-bit, tout en conservant une capacité d'inférence comparable à celle d'un modèle 16-bit. Le modèle est open source sous licence Apache 2.0, avec un financement de 16,25 millions de dollars, dont des investisseurs tels que Khosla Ventures.

BlockBeatNews

2026-04-01 03:50:53

Création du résumé en cours

D’après la surveillance de 1M AI News, le laboratoire d’IA PrismML, cofondé par le mathématicien Babak Hassibi de Caltech, met fin à sa période d’invisibilité et publie en open source la série de grands modèles de langage Bonsai en 1-bit. Le modèle phare, 1-bit Bonsai 8B, comporte 8,2 milliards de paramètres, avec une empreinte mémoire de seulement 1,15 Go, soit environ 14 fois plus compact que les modèles 16-bit de même catégorie (environ 16 Go). Les poids sont rendus disponibles en téléchargement ouvert sur HuggingFace sous licence Apache 2.0, avec la publication de deux modèles plus petits, 4B (0,5 Go) et 1,7B (0,24 Go).

Bonsai 8B est un vrai modèle 1-bit de bout en bout : les couches d’embedding, d’attention, MLP et la tête de sortie n’utilisent toutes que des poids exprimés par +1 ou -1, sans aucun correctif haute précision. PrismML affirme que ses capacités d’inférence et de compréhension du langage sur des jeux de tests standard sont comparables à celles des modèles 16-bit en précision intégrale. La compression mathématique au cœur du projet a été développée par l’équipe pendant des années à Caltech ; les droits de propriété intellectuelle appartiennent à Caltech, et PrismML est le seul licencié exclusif. Le modèle a été entraîné sur des Google v4 TPU.

Vitesse observée : 136 tokens/s sur un M4 Pro, 440 tokens/s sur un RTX 4090, et environ 44 tokens/s sur un iPhone 17 Pro Max, tandis que le modèle standard 16-bit 8B ne peut être installé sur aucun iPhone. La consommation d’énergie est réduite d’environ 4 à 5 fois par rapport au modèle 16-bit. PrismML indique que le matériel existant n’est pas conçu pour l’inférence 1-bit ; les avantages en vitesse et en consommation d’énergie proviennent principalement de la réduction de l’empreinte mémoire. Si, à l’avenir, un matériel spécifiquement conçu pour le 1-bit apparaît (il suffit d’additionner et de soustraire, sans multiplication), l’efficacité pourra encore être améliorée d’un ordre de grandeur.

PrismML a finalisé un tour de financement SAFE et un tour de démarrage de 16,25 millions de dollars, avec des investisseurs Khosla Ventures, Cerberus Capital et Caltech. Vinod Khosla, fondateur de Khosla Ventures, affirme que « ce n’est pas une petite itération, mais une percée technique majeure, une percée mathématique, pas seulement un autre petit modèle ».

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime