PrismML phát hành dòng Ternary Bonsai, sử dụng trọng số 1.58 bit {-1,0,+1}, bộ nhớ GPU chỉ bằng một phần mười chín của mô hình 16 bit. Ba quy mô 8B/4B/1.7B đã mở mã nguồn trên Hugging Face, và chạy nguyên bản trên thiết bị Apple. Trọng số 8B khoảng 1.75 GB, điểm chuẩn 75.5, dẫn đầu các đối thủ cùng loại. Trên iPhone 17 Pro Max, tốc độ 8B đạt 27 token/giây, hiệu quả năng lượng tăng gấp 3–4 lần. Trọng số được phân phối theo giấy phép Apache 2.0, chạy nguyên bản trên thiết bị Apple qua khung MLX.

MeNews

2026-05-21 06:47:33

Đang tạo bản tóm tắt

ME Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Trắc Beating, PrismML đã phát hành dòng mô hình ngôn ngữ Bonsai Ternary, sử dụng công nghệ trọng số ba trạng thái 1.58 bit (ternary weights), giảm dung lượng bộ nhớ của mô hình xuống còn 1/9 so với mô hình 16 bit trong khi vẫn duy trì hiệu suất cao. Dòng này gồm có 3 quy mô tham số là 8B, 4B và 1.7B, hiện đã mở mã nguồn trên Hugging Face và hỗ trợ chạy nguyên bản trên thiết bị Apple.
Dòng mô hình 1.58 bit gọi là mô hình giới hạn trọng số trong mạng nơ-ron ở mức {-1, 0, +1}. So với mô hình 1 bit trước đây chỉ có trọng số {-1, +1} nhằm tối đa hóa nén, việc thêm giá trị "0" giúp loại bỏ các kết nối dư thừa, cho phép mô hình giữ khả năng suy luận phức tạp ngay cả khi kích thước cực nhỏ.
Tập tin trọng số 8B của Bonsai Ternary mới phát hành chỉ có 1.75 GB, điểm chuẩn trung bình đạt 75.5, cao hơn 5 điểm so với phiên bản 1 bit của chính nó, thậm chí còn vượt trội về "hiệu quả năng lượng" (hiệu suất trên mỗi GB bộ nhớ đồ họa) so với các mô hình dày đặc cùng loại như Qwen3.
Hiệu quả năng lượng và tốc độ vận hành là lợi thế cốt lõi khác của dòng này. Trên iPhone 17 Pro Max, phiên bản 8B đạt tốc độ 27 token/giây, tăng khoảng 3 đến 4 lần về hiệu quả năng lượng. Điều này có ý nghĩa lớn đối với các nhà phát triển cần triển khai AI hiệu suất cao trên điện thoại, laptop hoặc các thiết bị cận biên, cho phép sử dụng bộ nhớ nhỏ để đạt hiệu quả gần như mô hình chính xác đầy đủ.
Hiện tại, mô hình Bonsai Ternary đã được hỗ trợ nguyên bản trên thiết bị Apple qua framework MLX. Trọng số của mô hình được phân phối theo giấy phép Apache 2.0.
(Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
8
7
Retweed

Bình luận

Thêm một bình luận

WalletHealthInspector

· 7giờ trước

Lượng hóa ba giá trị + MLX nguyên bản, hệ sinh thái của Apple đã khép kín, áp lực từ phe Android ngày càng lớn.

Xem bản gốcTrả lời0

RouterRunner

· 12giờ trước

Dẫn đầu các loại với 75,5 điểm, nhưng chênh lệch so với toàn chính xác là bao nhiêu? Có thử nghiệm loại bỏ nào để xem không?

Xem bản gốcTrả lời0

NeonFusionIceCream

· 12giờ trước

Bộ nhớ GPU giảm xuống còn 1/9, chi phí triển khai biên giảm mạnh, cảm giác điểm ngoặt của AI phía cạnh thật sự đã đến

Xem bản gốcTrả lời0

GateUser-c29c3db9

· 12giờ trước

iPhone 17 Pro Max 27 tok/s，chip của Apple đã cuối cùng bị khai thác hết NPU, hệ sinh thái MLX sắp cất cánh

Xem bản gốcTrả lời0

OrderCancellerAfterTheRain

· 12giờ trước

Tên gọi Bonsai này thật hay, cắt tỉa đến chỉ còn ba giá trị, mô hình thực sự giống như cây cảnh được tỉa tót tinh xảo

Xem bản gốcTrả lời0

TvlTeaTime

· 12giờ trước

Apache 2.0 mã nguồn mở được đánh giá cao, nhưng tôi tò mò về cách huấn luyện như thế nào, làm thế nào để thực hiện truyền ngược trọng số ba giá trị

Xem bản gốcTrả lời0

GateUser-8ca669fd

· 12giờ trước

Lượng hóa ba giá trị {-1,0,+1} , ý tưởng trong bài báo cũ đã được triển khai thực tế, dự án PrismML đã thực hiện rất đẹp trong công tác kỹ thuật hóa này

Xem bản gốcTrả lời0

BugBountyBuddy

· 12giờ trước

1.75GB chạy 8B? Tỷ lệ nén này hơi phi lý, chạy mô hình lớn trên điện thoại di động cuối cùng cũng không còn là mơ nữa

Xem bản gốcTrả lời0