PrismML lance le modèle 1.58-bit Ternary Bonsai, réduction des paramètres par 9 fois, surpassant en intelligence ses homologues

robot
Création du résumé en cours
ME News Actualités, le 17 avril (UTC+8), selon le monitoring de Dongcha Beating, PrismML a publié la série de modèles linguistiques Ternary Bonsai, utilisant la technologie des poids ternaires à 1,58 bits, réduisant la consommation de mémoire du modèle à un neuvième de celle d’un modèle de 16 bits tout en maintenant de hautes performances.
Cette série comprend des modèles de 8 milliards, 4 milliards et 1,7 milliard de paramètres, désormais open source sur Hugging Face et supportant nativement l’exécution sur appareils Apple.
Le modèle à 1,58 bits désigne un réseau neuronal dont les poids sont limités à trois valeurs {-1, 0, +1}.
Comparé au modèle à 1 bit, qui ne comporte que {-1, +1} et vise une compression extrême, l’introduction de la valeur « 0 » permet d’éliminer efficacement les connexions redondantes, permettant au modèle de conserver une capacité de raisonnement complexe dans un volume très réduit.
Le fichier de poids du modèle Ternary Bonsai 8B publié cette fois ne pèse que 1,75 Go, avec une note moyenne de 75,5 en benchmark, ce qui est supérieur de 5 points à la version 1 bit de leur propre modèle, et dépasse largement des modèles denses similaires comme Qwen3 en termes de « densité intelligente » (performance par Go de mémoire vidéo).
Le rapport efficacité énergétique et la vitesse d’exécution sont également des avantages clés de cette série.
Sur l’iPhone 17 Pro Max, la version 8B atteint une vitesse de 27 tokens/sec, avec un gain d’efficacité énergétique d’environ 3 à 4 fois.
Cela signifie que pour les développeurs souhaitant déployer une IA haute performance sur des appareils mobiles ou portables comme les smartphones ou ordinateurs portables, ils peuvent obtenir une performance proche de celle d’un modèle complet avec une consommation mémoire très faible.
Actuellement, le modèle Ternary Bonsai est supporté nativement sur appareils Apple via le framework MLX.
Les poids du modèle sont distribués sous licence Apache 2.0.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 5
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
SweepTheFloor
· Il y a 50m
Hugging Face est directement utilisable, je vais l'essayer ce soir pour voir quelle est la latence réelle.
Voir l'originalRépondre0
SushiSlippage
· Il y a 12h
{-1,0,+1} me rappelle BinaryNet d'autrefois, mais cette fois ça semble vraiment fonctionner
Voir l'originalRépondre0
HexiHoodie
· Il y a 12h
Le rapport d'efficacité énergétique augmente de 3 à 4 fois, ce qui signifie que l'autonomie ne perdra plus 50 % de sa charge en une demi-heure.
Voir l'originalRépondre0
MevInRetrospect
· Il y a 12h
Apache 2.0 open source, praise, c'est le vrai open source, pas comme certains qui font du buzz
Voir l'originalRépondre0
TheClarityAfterLiquidating
· Il y a 12h
27 tok/s sur mobile, c'est plus rapide que mon ancien portable qui faisait tourner 7B, l'époque a changé
Voir l'originalRépondre0
0XNightRun
· Il y a 12h
La prise en charge native de MLX est cruciale, les utilisateurs de l'écosystème Apple sont ravis, ils n'ont plus besoin de se compliquer avec la conversion.
Voir l'originalRépondre0
PaperSculptureOctopusPosition
· Il y a 12h
Ternary Bonsai, ce nom est assez intéressant, la pondération à trois valeurs est vraiment une conception délicate digne d'un bonsaï
Voir l'originalRépondre0
AutumnSlopeCabin
· Il y a 12h
Un neuvième de la mémoire vidéo ? Je n'aurais jamais osé y penser avant, maintenant l'iPhone peut exécuter localement de grands modèles.
Voir l'originalRépondre0
RedTelephoneBoothRuins
· Il y a 12h
1.75GB pour faire fonctionner un modèle de 8B, ce taux de compression est vraiment incroyable, l'IA sur mobile peut enfin être utilisée
Voir l'originalRépondre0
Afficher plus
  • Épinglé