PrismML lança a série Ternary Bonsai, usando peso de 1,58 bits {-1,0,+1}, com memória apenas um nono de um modelo de 16 bits. As três escalas de 8B/4B/1,7B já estão abertas no Hugging Face e rodando nativamente em dispositivos Apple. O peso de 8B é aproximadamente 1,75 GB, com uma pontuação de referência de 75,5, liderando na categoria. No iPhone 17 Pro Max, a taxa de 8B é de 27 tokens/segundo, com uma melhora de eficiência de 3 a 4 vezes. Os pesos são distribuídos sob a licença Apache 2.0, rodando nativamente em dispositivos Apple através do framework MLX.

MeNews

2026-05-21 06:47:33

Geração do resumo em andamento

ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a PrismML lançou a série de modelos de linguagem Ternary Bonsai, usando a tecnologia de pesos ternários de 1,58 bits, que reduz o uso de memória do modelo para um nono do modelo de 16 bits, mantendo alto desempenho.
A série inclui tamanhos de parâmetro de 8B, 4B e 1,7B, já disponível no Hugging Face como código aberto e suportando execução nativa em dispositivos Apple.
O chamado modelo de 1,58 bits refere-se a limitar os pesos da rede neural a três valores {-1, 0, +1}.
Em comparação com o modelo de 1 bit, que busca compressão extrema (com pesos apenas {-1, +1}), a introdução do valor "0" pode eliminar conexões redundantes, permitindo que o modelo mantenha capacidades de raciocínio complexas mesmo com um tamanho extremamente pequeno.
O arquivo de peso do Ternary Bonsai 8B lançado agora tem apenas 1,75 GB, com uma pontuação média de benchmark de 75,5, superando em 5 pontos a versão de 1 bit da própria PrismML, e liderando significativamente em "densidade inteligente" (desempenho por GB de memória de vídeo) em relação a modelos densos semelhantes como o Qwen3.
A eficiência energética e a velocidade de execução são outras vantagens centrais dessa série.
No iPhone 17 Pro Max, a versão de 8B pode atingir uma velocidade de 27 tok/s, com uma melhora de aproximadamente 3 a 4 vezes na eficiência energética.
Para desenvolvedores que precisam implantar IA de alto desempenho em dispositivos móveis, laptops e outros dispositivos de borda, isso significa obter desempenho inteligente quase completo com um custo de memória extremamente baixo.
Atualmente, o modelo Ternary Bonsai já possui suporte nativo na Apple através do framework MLX.
Os pesos do modelo são distribuídos sob a licença Apache 2.0.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

8 Curtidas

Recompensa
8
8
7
Compartilhar

Comentário

Adicionar um comentário

WalletHealthInspector

· 1h atrás

Quantização de três valores + MLX nativo, o ecossistema da Apple fechou o ciclo, a pressão no lado Android é enorme

Ver originalResponder0

RouterRunner

· 6h atrás

75,5 pontos à frente dos similares, mas qual é a diferença em relação à precisão total? Há algum experimento de ablação para verificar?

Ver originalResponder0

NeonFusionIceCream

· 6h atrás

A memória de vídeo foi reduzida para 1/9, o custo de implantação na borda caiu drasticamente, parece que o ponto de inflexão da IA na ponta realmente chegou

Ver originalResponder0

GateUser-c29c3db9

· 6h atrás

iPhone 17 Pro Max 27 tok/s，a NPU do chip da Apple finalmente foi explorada ao máximo, o ecossistema MLX vai decolar

Ver originalResponder0

OrderCancellerAfterTheRain

· 6h atrás

O nome Bonsai foi bem escolhido, ao podar até restar apenas três valores, o modelo realmente parece uma miniatura de jardim bem trabalhada.

Ver originalResponder0

TvlTeaTime

· 6h atrás

Abertura de código Apache 2.0 com boas avaliações, mas tenho curiosidade de como é feito o treinamento, como funciona a retropropagação com pesos de três valores

Ver originalResponder0

GateUser-8ca669fd

· 6h atrás

Quantização de três valores {-1,0,+1}, a ideia do artigo antigo foi implementada, e a engenharia do PrismML foi feita de forma excelente

Ver originalResponder0

BugBountyBuddy

· 6h atrás

1.75GB para rodar 8B? Essa taxa de compressão é meio absurda, rodar modelos grandes localmente no celular finalmente não é mais um sonho

Ver originalResponder0

Tendências
Ver projetos
#
TradfiTradingChallenge
224.36K Popularidade
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Popularidade
#
IsraelStrikesIranBTCPlunges
48.42K Popularidade
#
#DailyPolymarketHotspot
1.01M Popularidade
#
SpaceXOfficiallyFilesforIPO
744.8K Popularidade

Fixado

sitemap

PrismML lança o modelo de 1.58 bits Ternary Bonsai, com redução de parâmetros em 9 vezes, superando outros similares em inteligência

Tendências

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fixado