PrismML lance le modèle 1.58-bit Ternary Bonsai, réduction des paramètres par 9 fois, surpassant en intelligence ses homologues

robot
Création du résumé en cours
ME News Actualités, le 17 avril (UTC+8), selon le monitoring de Dongcha Beating, PrismML a publié la série de modèles linguistiques Ternary Bonsai, utilisant la technologie des poids ternaires à 1,58 bits, réduisant la consommation de mémoire du modèle à un neuvième de celle d’un modèle de 16 bits tout en maintenant de hautes performances.
Cette série comprend des modèles de 8 milliards, 4 milliards et 1,7 milliard de paramètres, désormais open source sur Hugging Face et supportant nativement l’exécution sur appareils Apple.
Le modèle à 1,58 bits désigne un réseau neuronal dont les poids sont limités à trois valeurs {-1, 0, +1}.
Comparé au modèle à 1 bit, qui ne comporte que {-1, +1} et vise une compression extrême, l’introduction de la valeur « 0 » permet d’éliminer efficacement les connexions redondantes, permettant au modèle de conserver une capacité de raisonnement complexe dans un volume très réduit.
Le fichier de poids 8B de Ternary Bonsai publié cette fois ne pèse que 1,75 Go, avec une note de benchmark moyenne de 75,5, ce qui dépasse de 5 points la version 1 bit de leur propre modèle, et surpasse largement des modèles denses similaires comme Qwen3 en termes de « densité intelligente » (performance par Go de mémoire vidéo).
Le rapport efficacité énergétique et la vitesse d’exécution sont également des avantages clés de cette série.
Sur l’iPhone 17 Pro Max, la version 8B atteint une vitesse de 27 tokens/sec, avec un rapport efficacité énergétique amélioré d’environ 3 à 4 fois.
Cela signifie que pour les développeurs souhaitant déployer une IA haute performance sur des appareils mobiles ou portables comme les smartphones ou ordinateurs portables, ils peuvent obtenir une performance proche de celle d’un modèle complet avec une consommation mémoire très faible.
Actuellement, le modèle Ternary Bonsai est supporté nativement sur appareils Apple via le framework MLX.
Les poids du modèle sont distribués sous licence Apache 2.0.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • 12
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-44dde53b
· Il y a 12h
L'efficacité énergétique augmentée de 3 à 4 fois, cette génération d'iPhone aura une pression sur l'autonomie un peu moindre.
Voir l'originalRépondre0
Neon-LitStreetsAfterTheRain
· Il y a 12h
Les données de test réelles de l'iPhone 17 Pro Max sont affichées, bien plus détaillées que celles du PPT
Voir l'originalRépondre0
NeonFusionIceCream
· Il y a 12h
{-1,0,+1} poids à trois valeurs, quantifié au maximum peut encore maintenir un score de 75,5, une véritable compétence en ingénierie
Voir l'originalRépondre0
TreatMemesAsBeliefs
· Il y a 12h
Instructions d'adaptation du cadre MLX : l'écosystème Apple approfondit de plus en plus sa stratégie IA
Voir l'originalRépondre0
QuantizedDaydream
· Il y a 12h
Apache 2.0 licence appréciée, la convivialité commerciale est essentielle pour se développer
Voir l'originalRépondre0
HaiyanColdWallet
· Il y a 12h
Hugging Face est open source, je vais essayer la version 4B ce week-end pour voir les résultats
Voir l'originalRépondre0
GlassBottleFeather
· Il y a 12h
L'appareil Apple exécute nativement le modèle 8B, avec une vitesse de 27 tok/s, ce qui est utilisable sur un téléphone.
Voir l'originalRépondre0
NeonMint
· Il y a 12h
1.58 bits est trop forte, la mémoire vidéo a été directement réduite à 1/9, je suis impressionné par ce taux de compression
Voir l'originalRépondre0
  • Épinglé