PrismML lanza el modelo de 1.58 bits Ternary Bonsai, reducción de parámetros en 9 veces, superando en inteligencia a modelos similares

robot
Generación de resúmenes en curso
ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, PrismML lanzó la serie de modelos de lenguaje Ternary Bonsai, que mediante la tecnología de pesos ternarios de 1.58 bits, reduce el consumo de memoria del modelo a una novena del modelo de 16 bits, manteniendo un alto rendimiento.
La serie incluye modelos con 8B, 4B y 1.7B de parámetros, ya disponibles en open source en Hugging Face y soportando ejecución nativa en dispositivos Apple.
El llamado modelo de 1.58 bits se refiere a limitar los pesos de la red neuronal a los valores {-1, 0, +1}.
En comparación con el modelo de 1 bit, que busca una compresión extrema (con pesos solo {-1, +1}), la introducción del valor «0» puede eliminar conexiones redundantes, permitiendo que el modelo conserve capacidades de razonamiento complejas en un tamaño muy reducido.
El archivo de peso de 8B de Ternary Bonsai lanzado esta vez tiene solo 1.75 GB, y su puntuación en pruebas de referencia alcanza 75.5, superando en 5 puntos a su versión de 1 bit, e incluso liderando significativamente en «densidad inteligente» (rendimiento por GB de memoria de video) frente a modelos densos similares como Qwen3.
La eficiencia energética y la velocidad de ejecución son otra ventaja clave de esta serie.
En el iPhone 17 Pro Max, la versión de 8B puede alcanzar una velocidad de 27 tok/s, con una mejora en la relación de eficiencia energética de aproximadamente 3 a 4 veces.
Esto significa que los desarrolladores que necesitan desplegar IA de alto rendimiento en dispositivos móviles, portátiles y otros dispositivos en el borde, pueden obtener un rendimiento cercano al de modelos de precisión completa con un consumo de memoria muy pequeño.
Actualmente, los modelos Ternary Bonsai ya cuentan con soporte nativo en dispositivos Apple a través del framework MLX.
Los pesos del modelo se distribuyen bajo la licencia Apache 2.0.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • 7
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
WalletHealthInspector
· hace3h
Cuantificación de tres valores + MLX nativo, el ecosistema de Apple está cerrado, la presión en el campamento de Android es enorme
Ver originalResponder0
RouterRunner
· hace8h
Lidera con 75.5 puntos sobre los similares, pero ¿cuánto es la diferencia en comparación con la precisión total? ¿Hay algún experimento de ablación para verificarlo?
Ver originalResponder0
NeonFusionIceCream
· hace8h
La memoria de video se reduce a 1/9, el costo de despliegue en el borde cae drásticamente, parece que realmente ha llegado el punto de inflexión del AI en el lado del dispositivo.
Ver originalResponder0
GateUser-c29c3db9
· hace8h
iPhone 17 Pro Max 27 tok/s,el NPU del chip de Apple finalmente ha sido exprimido, el ecosistema MLX está a punto de despegar
Ver originalResponder0
OrderCancellerAfterTheRain
· hace8h
El nombre Bonsai está bien elegido, podando hasta dejar solo tres valores, el modelo realmente parece un bonsái cuidadosamente perfeccionado.
Ver originalResponder0
TvlTeaTime
· hace8h
Apache 2.0 de código abierto con buena reputación, pero tengo curiosidad sobre cómo se realiza el entrenamiento, ¿cómo se hace la retropropagación con pesos de tres valores?
Ver originalResponder0
GateUser-8ca669fd
· hace8h
Cuantificación de tres valores {-1,0,+1}, la idea de los viejos artículos se ha implementado, y PrismML ha hecho un trabajo hermoso en la ingeniería de esta ola
Ver originalResponder0
BugBountyBuddy
· hace8h
1.75GB para correr 8B? Esta tasa de compresión es un poco exagerada, finalmente correr modelos grandes localmente en el teléfono ya no es un sueño
Ver originalResponder0
  • Fijado