Caltech publie le modèle open source True 1-Bit Model Bonsai : 8 milliards de paramètres pour seulement 1,15 Go, atteignant 44 tokens/s sur iPhone

AirdropBlackHole · 2026-04-01T04:21:17+00:00

PrismML a dévoilé les modèles de langage large open-source 1-bit Bonsai, notamment le modèle 8B avec 8,2 milliards de paramètres, compressant considérablement l'utilisation de la mémoire tout en égalant les performances des modèles traditionnels 16-bit.

AirdropBlackHole

2026-04-01 04:21:17

Création du résumé en cours

Selon 1M AI News, le laboratoire d’IA PrismML, cofondé par le mathématicien de Caltech Babak Hassibi, est sorti du mode furtif et a publié la série open source de modèles de langage 1-bit Bonsai. Le modèle phare, 1-bit Bonsai 8B, compte 8,2 milliards de paramètres et n’occupe que 1,15 GB de mémoire, soit environ 14 fois plus compact que des modèles comparables sur 16 bits (environ 16 GB). Les poids sont disponibles au téléchargement sous la licence Apache 2.0 sur HuggingFace, avec deux modèles plus petits : 4B (0,5 GB) et 1.7B (0,24 GB). Bonsai 8B est un véritable modèle 1-bit de bout en bout : la couche d’embedding, la couche d’attention, la couche MLP et la tête de sortie représentent toutes des poids n’utilisant que +1 ou -1, sans aucun correctif en haute précision. PrismML affirme que ses capacités d’inférence et de compréhension du langage, sur des benchmarks standard, sont comparables à celles de modèles 16 bits à pleine précision. Les mathématiques de compression de base ont été développées par l’équipe au cours de plusieurs années à Caltech, avec une propriété intellectuelle détenue par Caltech, faisant de PrismML le seul licencié exclusif. Le modèle a été entraîné à l’aide de Google v4 TPU. Les vitesses mesurées incluent 136 tokens/s sur un M4 Pro Mac, 440 tokens/s sur un RTX 4090, et environ 44 tokens/s sur un iPhone 17 Pro Max, tandis que les modèles 8B standard en 16 bits ne peuvent être chargés sur aucun iPhone. La consommation d’énergie est réduite d’environ 4 à 5 fois par rapport aux modèles 16 bits. PrismML note que le matériel existant n’est pas conçu pour l’inférence 1-bit, et que les avantages de vitesse et d’énergie proviennent principalement de la réduction de l’usage mémoire ; si, à l’avenir, un matériel spécifiquement conçu pour des opérations 1-bit (nécessitant uniquement addition et soustraction, sans multiplication) émerge, l’efficacité pourrait s’améliorer d’un ordre de grandeur. PrismML a finalisé 16,25 millions de dollars de financement en SAFE et en seed, avec des investisseurs incluant Khosla Ventures, Cerberus Capital et Caltech. Vinod Khosla, fondateur de Khosla Ventures, a déclaré que « ce n’est pas une simple itération mineure, mais une percée technologique majeure, une percée mathématique, pas juste un autre petit modèle ».

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime