Caltech Open Source Modelo 1-bit Bonsai: 8B parâmetros com apenas 1,15GB, rodando a 44 tok/s no iPhone

CoinNetwork · 2026-04-01T05:54:16+00:00

O laboratório de IA PrismML, cofundado pelo matemático do California Institute of Technology Babak Hassibi, lançou a série de grandes modelos de linguagem Bonsai de 1-bit, com o modelo flagship Bonsai 8B suportando 8,2 bilhões de parâmetros, ocupando apenas 1,15 GB de memória, uma compressão de 14 vezes, com desempenho equivalente a modelos de 16 bits, apresentando vantagens significativas em velocidade e consumo de energia. O modelo foi treinado usando TPU do Google e recebeu financiamento de 16,25 milhões de dólares.

CoinNetwork

2026-04-01 05:54:16

Geração de resumo em curso

Notícias do Coinsquare, segundo a monitorização da 1M AI News: o laboratório de IA PrismML, fundado em conjunto pelo matemático da Caltech Babak Hassibi, terminou o período de ocultação e lançou em open source a série de grandes modelos de linguagem Bonsai de 1-bit. O modelo carro-chefe, 1-bit Bonsai 8B, tem 8,2 mil milhões de parâmetros, com uma utilização de memória de apenas 1,15 GB, o que representa cerca de 14 vezes de compressão face a modelos 16-bit do mesmo nível (aproximadamente 16 GB). Os pesos são disponibilizados para download aberto no HuggingFace sob a licença Apache 2.0, e foram lançados também dois modelos mais pequenos: 4B (0,5 GB) e 1,7B (0,24 GB). O Bonsai 8B é um modelo de 1-bit verdadeiro e de ponta a ponta: a camada de embeddings, a camada de atenção, as camadas de MLP e o cabeçalho de saída usam apenas pesos representados por +1 ou -1, sem quaisquer patches de alta precisão. A PrismML afirma que, nos testes de referência padrão, as capacidades de inferência e compreensão de linguagem do seu modelo são equivalentes às de modelos 16-bit de precisão total. A compressão matemática central foi desenvolvida pela equipa ao longo de vários anos na Caltech; a propriedade intelectual pertence à Caltech, e a PrismML é o único licenciado exclusivo. O modelo foi treinado com Google v4 TPU. Resultados em testes: 136 tok/s no M4 Pro Mac, 440 tok/s na RTX 4090 e cerca de 44 tok/s no iPhone 17 Pro Max, enquanto um modelo padrão 16-bit 8B não cabe em qualquer iPhone. O consumo energético é reduzido em cerca de 4-5 vezes face ao modelo 16-bit. A PrismML salienta que o hardware existente não foi concebido para inferência de 1-bit; as vantagens de velocidade e de consumo energético vêm principalmente de uma redução do uso de memória. Se, no futuro, surgirem dispositivos de hardware desenhados especificamente para 1-bit (apenas requerendo operações de adição e subtração, sem multiplicação), a eficiência poderá ser melhorada ainda mais em uma ordem de grandeza. A PrismML concluiu uma ronda SAFE e de semente de 16,25 milhões de dólares; os investidores são Khosla Ventures, Cerberus Capital e a Caltech. Vinod Khosla, fundador da Khosla Ventures, afirmou que «isto não é uma pequena iteração; é um grande avanço tecnológico, uma descoberta matemática, e não apenas mais um pequeno modelo».

SAFE0,05%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos