Caltech lança o Modelo True 1-Bit de Código Aberto Bonsai: 8B Parâmetros com Apenas 1,15GB, atingindo 44 Tokens/s no iPhone

AirdropBlackHole · 2026-04-01T04:21:17+00:00

A PrismML revelou os modelos de linguagem de grande escala Bonsai de 1 bit de código aberto, nomeadamente o modelo 8B com 8,2 mil milhões de parâmetros, comprimindo significativamente o uso de memória enquanto mantém o desempenho dos modelos tradicionais de 16 bits.

AirdropBlackHole

2026-04-01 04:21:17

Geração de resumo em curso

De acordo com a 1M AI News, o laboratório de IA PrismML, cofundado pelo matemático da Caltech Babak Hassibi, saiu do modo stealth e lançou a série open-source de modelos de linguagem 1-bit Bonsai. O modelo principal, 1-bit Bonsai 8B, tem 8,2 mil milhões de parâmetros e ocupa apenas 1,15 GB de memória, o que corresponde a cerca de 14 vezes mais compressão do que modelos comparáveis de 16 bits (cerca de 16 GB). Os pesos estão disponíveis para download ao abrigo da licença Apache 2.0 na HuggingFace, juntamente com dois modelos mais pequenos: 4B (0,5 GB) e 1,7B (0,24 GB). Bonsai 8B é um modelo 1-bit verdadeiro de ponta a ponta: a camada de embeddings, a camada de atenção, a camada MLP e a saída (output head) representam todos os pesos usando apenas +1 ou -1, sem quaisquer patches de alta precisão. A PrismML afirma que as suas capacidades de inferência e de compreensão de linguagem em benchmarks padrão são comparáveis às dos modelos completos de 16 bits com precisão total. A matemática central da compressão foi desenvolvida pela equipa ao longo de vários anos na Caltech, com a propriedade intelectual a pertencer à Caltech, tornando a PrismML a única licenciada exclusiva. O modelo foi treinado usando Google v4 TPU. As velocidades medidas incluem 136 tokens/s num M4 Pro Mac, 440 tokens/s num RTX 4090 e aproximadamente 44 tokens/s num iPhone 17 Pro Max, enquanto os modelos 8B padrão de 16 bits não podem ser carregados em qualquer iPhone. O consumo de energia é reduzido em cerca de 4-5 vezes face aos modelos de 16 bits. A PrismML nota que o hardware existente não foi concebido para inferência de 1-bit, e as vantagens de velocidade e de energia vêm sobretudo da redução do uso de memória; se no futuro surgir hardware especificamente concebido para operações de 1-bit (exigindo apenas adição e subtração, sem multiplicação), a eficiência poderá melhorar em uma ordem de grandeza. A PrismML concluiu um total de 16,25 milhões de dólares em financiamento na ronda SAFE e seed, com investidores incluindo Khosla Ventures, Cerberus Capital e Caltech. Vinod Khosla, fundador da Khosla Ventures, afirmou que isto é «não uma iteração menor, mas uma descoberta tecnológica significativa, uma descoberta matemática, não apenas mais um modelo pequeno.»

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos