PrismML lança o modelo de 1.58 bits Ternary Bonsai, com redução de parâmetros em 9 vezes, superando outros similares em inteligência

robot
Geração de resumo em curso
ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a PrismML lançou a série de modelos de linguagem Ternary Bonsai, usando a tecnologia de pesos ternários de 1,58 bits, que reduz o uso de memória do modelo para um nono do modelo de 16 bits, mantendo alto desempenho.
A série inclui modelos com 8B, 4B e 1,7B de parâmetros, já disponível como código aberto na Hugging Face e suportando execução nativa em dispositivos Apple.
O chamado modelo de 1,58 bits refere-se a limitar os pesos da rede neural a três valores {-1, 0, +1}.
Em comparação com o modelo de 1 bit, que busca compressão extrema (com pesos apenas {-1, +1}), a introdução do valor "0" pode eliminar conexões redundantes, permitindo que o modelo mantenha capacidades de raciocínio complexas mesmo com um tamanho extremamente pequeno.
O arquivo de peso do Ternary Bonsai 8B lançado desta vez tem apenas 1,75 GB, com uma pontuação média de benchmark de 75,5, superando em 5 pontos a versão de 1 bit da própria empresa, e liderando significativamente em "densidade inteligente" (desempenho por GB de memória de vídeo) em relação a modelos densos semelhantes como o Qwen3.
A eficiência energética e a velocidade de execução são outras vantagens centrais desta série.
No iPhone 17 Pro Max, a versão de 8B atinge uma velocidade de 27 tok/s, com uma melhoria de cerca de 3 a 4 vezes na eficiência energética.
Para desenvolvedores que precisam implantar IA de alto desempenho em dispositivos móveis, laptops e outros dispositivos de borda, isso significa que podem obter desempenho inteligente próximo ao de modelos de precisão completa com um custo de memória extremamente baixo.
Atualmente, o modelo Ternary Bonsai já possui suporte nativo na Apple através do framework MLX.
Os pesos do modelo são distribuídos sob a licença Apache 2.0.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • 7
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
WalletHealthInspector
· 3h atrás
Quantização de três valores + MLX nativo, o ecossistema da Apple fechou o ciclo, a pressão sobre o ecossistema Android é enorme
Ver originalResponder0
RouterRunner
· 8h atrás
75,5 pontos à frente dos similares, mas qual é a diferença em relação à precisão total? Há algum experimento de ablação para verificar?
Ver originalResponder0
NeonFusionIceCream
· 8h atrás
A memória de vídeo foi reduzida para 1/9, o custo de implantação na borda caiu drasticamente, parece que o ponto de virada da IA no lado do dispositivo realmente chegou
Ver originalResponder0
GateUser-c29c3db9
· 8h atrás
iPhone 17 Pro Max 27 tok/s,a NPU do chip da Apple finalmente foi esgotada, o ecossistema MLX vai decolar
Ver originalResponder0
OrderCancellerAfterTheRain
· 8h atrás
O nome Bonsai foi bem escolhido, ao fazer a poda até restar apenas três valores, o modelo realmente parece uma miniatura de jardim bem trabalhada.
Ver originalResponder0
TvlTeaTime
· 8h atrás
Abertura de código Apache 2.0 com boas avaliações, mas tenho curiosidade sobre como é feito o treinamento, como funciona a retropropagação com pesos de três valores
Ver originalResponder0
GateUser-8ca669fd
· 8h atrás
Quantização de três valores {-1,0,+1}, a abordagem do artigo antigo foi implementada com sucesso, a engenharia do PrismML nesta rodada foi feita de forma excelente
Ver originalResponder0
BugBountyBuddy
· 8h atrás
1.75GB a correr 8B? Esta taxa de compressão é um pouco absurda, finalmente não é mais um sonho rodar grandes modelos localmente no telemóvel
Ver originalResponder0
  • Fixado