PrismML lança o modelo de 1.58 bits Ternary Bonsai, redução de parâmetros em 9 vezes, superando outros similares em inteligência

robot
Geração do resumo em andamento
ME News Notícias, 17 de abril (UTC+8), de acordo com a monitorização do Beating, a PrismML lançou a série de modelos de linguagem Ternary Bonsai, usando a tecnologia de pesos ternários de 1,58 bits, que reduz o uso de memória do modelo para um nono do modelo de 16 bits, mantendo alto desempenho.
A série inclui tamanhos de parâmetro de 8B, 4B e 1,7B, já disponível no Hugging Face e suportando execução nativa em dispositivos Apple.
O chamado modelo de 1,58 bits refere-se a limitar os pesos da rede neural a três valores {-1, 0, +1}.
Em comparação com o modelo de 1 bit, que busca compressão extrema (com pesos apenas {-1, +1}), a introdução do valor "0" pode eliminar conexões redundantes, permitindo que o modelo mantenha capacidades de raciocínio complexas mesmo com um tamanho extremamente pequeno.
O arquivo de peso do Ternary Bonsai 8B lançado desta vez tem apenas 1,75 GB, com uma pontuação média de benchmark de 75,5, não só 5 pontos acima da versão de 1 bit da própria PrismML, mas também liderando significativamente modelos densos semelhantes como o Qwen3 em termos de "densidade inteligente" (desempenho por GB de memória de vídeo).
A eficiência energética e a velocidade de execução são outras vantagens centrais desta série.
No iPhone 17 Pro Max, a versão de 8B pode atingir uma velocidade de 27 tok/s, com uma melhoria de cerca de 3 a 4 vezes na eficiência energética.
Para desenvolvedores que precisam implantar IA de alto desempenho em dispositivos móveis, laptops e outros dispositivos de borda, isso significa que podem obter desempenho inteligente próximo ao de modelos de precisão completa com um custo de memória extremamente baixo.
Atualmente, o modelo Ternary Bonsai já possui suporte nativo na Apple através do framework MLX.
Os pesos do modelo são distribuídos sob a licença Apache 2.0.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • 12
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GateUser-44dde53b
· 14h atrás
A eficiência energética aumentou de 3 a 4 vezes, a pressão sobre a bateria deste iPhone desta geração pode diminuir um pouco.
Ver originalResponder0
Neon-LitStreetsAfterTheRain
· 14h atrás
Os dados de teste do iPhone 17 Pro Max estão aí, muito mais detalhados do que no PPT
Ver originalResponder0
NeonFusionIceCream
· 14h atrás
{-1,0,+1} pesos de três valores, quantizado ao máximo ainda consegue manter uma pontuação de 75,5, habilidade de engenharia pode
Ver originalResponder0
TreatMemesAsBeliefs
· 14h atrás
Instruções de adaptação do framework MLX: o posicionamento de IA no ecossistema Apple se aprofunda cada vez mais
Ver originalResponder0
QuantizedDaydream
· 14h atrás
Acordo Apache 2.0 com boas avaliações, só é amigável para negócios se puder ser amplamente adotado
Ver originalResponder0
HaiyanColdWallet
· 14h atrás
Hugging Face já foi open source, vou testar a versão 4B neste fim de semana
Ver originalResponder0
GlassBottleFeather
· 14h atrás
Dispositivo Apple executando nativamente o modelo 8B, com velocidade de 27 tok/s, pode ser usado no celular
Ver originalResponder0
NeonMint
· 14h atrás
1.58 bits foi demais, a memória de vídeo foi reduzida para 1/9, essa taxa de compressão eu admiro
Ver originalResponder0
  • Fixado