PrismML lance le modèle 1.58-bit Ternary Bonsai, réduction des paramètres par 9 fois, surpassant en intelligence ses homologues

robot
Création du résumé en cours
ME News Actualités, le 17 avril (UTC+8), selon le monitoring de Dongcha Beating, PrismML a publié la série de modèles linguistiques Ternary Bonsai, utilisant la technologie des poids ternaires à 1,58 bits, réduisant la consommation de mémoire du modèle à un neuvième de celle d’un modèle de 16 bits tout en maintenant de hautes performances. La série comprend trois tailles de paramètres : 8B, 4B et 1,7B, et est désormais open source sur Hugging Face, supportant nativement l’exécution sur appareils Apple.
Ce qu’on appelle un modèle à 1,58 bits, c’est un réseau neuronal dont les poids sont limités à trois valeurs {-1, 0, +1}. Par rapport au modèle à 1 bit, qui privilégie une compression extrême avec des poids uniquement {-1, +1}, l’introduction de la valeur « 0 » permet d’éliminer efficacement les connexions redondantes, permettant au modèle de conserver une capacité de raisonnement complexe dans un volume très réduit.
Le fichier de poids 8B de Ternary Bonsai publié cette fois ne pèse que 1,75 Go, avec une note moyenne de benchmark de 75,5, ce qui est supérieur de 5 points à la version 1 bit de leur propre modèle, et dépasse largement des modèles denses similaires comme Qwen3 en termes de « densité intelligente » (performance par Go de mémoire vidéo).
Le rapport efficacité énergétique et la vitesse d’exécution sont un autre avantage clé de cette série. Sur l’iPhone 17 Pro Max, la version 8B peut atteindre une vitesse de 27 tok/s, avec une amélioration de 3 à 4 fois du rapport efficacité énergétique.
Pour les développeurs souhaitant déployer une IA haute performance sur des appareils mobiles ou portables comme les smartphones ou ordinateurs portables, cela signifie qu’ils peuvent obtenir une performance proche de celle d’un modèle complet avec une consommation mémoire très faible.
Actuellement, le modèle Ternary Bonsai est supporté nativement sur appareils Apple via le framework MLX. Les poids du modèle sont distribués sous licence Apache 2.0.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • 7
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
WalletHealthInspector
· Il y a 7h
Quantification à trois valeurs + MLX natif, l'écosystème Apple est bouclé, la pression sur l'écosystème Android est énorme
Voir l'originalRépondre0
RouterRunner
· Il y a 12h
75,5 points d'avance sur la catégorie, mais quelle est la différence par rapport à la précision totale ? Y a-t-il des expériences d'ablation à examiner ?
Voir l'originalRépondre0
NeonFusionIceCream
· Il y a 12h
La mémoire vidéo réduite à 1/9, le coût de déploiement en périphérie chute brusquement, on dirait que le tournant de l'IA côté terminal est vraiment arrivé
Voir l'originalRépondre0
GateUser-c29c3db9
· Il y a 12h
iPhone 17 Pro Max 27 tok/s,le NPU du processeur Apple est enfin exploité à fond, l'écosystème MLX va décoller
Voir l'originalRépondre0
OrderCancellerAfterTheRain
· Il y a 12h
Le nom Bonsai est bien choisi, la taille est réduite à seulement trois valeurs, le modèle ressemble effectivement à un bonsaï soigneusement façonné.
Voir l'originalRépondre0
TvlTeaTime
· Il y a 12h
Apache 2.0 open source est bien accueilli, mais je suis curieux de savoir comment la formation est réalisée, comment fonctionne la rétropropagation avec des poids à trois valeurs
Voir l'originalRépondre0
GateUser-8ca669fd
· Il y a 12h
Quantification à trois valeurs {-1,0,+1}, l'idée des anciennes publications est devenue concrète, cette démarche d'ingénierie chez PrismML est réalisée de manière brillante
Voir l'originalRépondre0
BugBountyBuddy
· Il y a 12h
1.75GB pour exécuter 8B ? Ce taux de compression est un peu fou, faire tourner un grand modèle localement sur un téléphone n'est enfin plus un rêve
Voir l'originalRépondre0
  • Épinglé