PrismML ra mắt mô hình 1.58-bit Ternary Bonsai, giảm tham số 9 lần, trí thông minh vượt trội so với các đối thủ cùng loại

robot
Đang tạo bản tóm tắt
ME Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Trắc Beating, PrismML đã phát hành dòng mô hình ngôn ngữ Bonsai Ternary, sử dụng công nghệ trọng số ba trạng thái 1.58 bit (ternary weights), giảm dung lượng bộ nhớ của mô hình xuống còn 1/9 so với mô hình 16 bit trong khi vẫn duy trì hiệu suất cao. Dòng này gồm có 3 quy mô tham số là 8B, 4B và 1.7B, hiện đã mở mã nguồn trên Hugging Face và hỗ trợ chạy nguyên bản trên thiết bị Apple.
Dòng mô hình 1.58 bit gọi là mô hình giới hạn trọng số trong mạng nơ-ron ở mức {-1, 0, +1}. So với mô hình 1 bit trước đây chỉ có trọng số {-1, +1} nhằm tối đa hóa nén, việc thêm giá trị "0" giúp loại bỏ các kết nối dư thừa, cho phép mô hình giữ khả năng suy luận phức tạp ngay cả khi kích thước cực nhỏ.
Tập tin trọng số 8B của Bonsai Ternary mới phát hành chỉ có 1.75 GB, điểm chuẩn trung bình đạt 75.5, cao hơn 5 điểm so với phiên bản 1 bit của chính nó, thậm chí còn vượt trội về "hiệu quả năng lượng" (hiệu suất trên mỗi GB bộ nhớ đồ họa) so với các mô hình dày đặc cùng loại như Qwen3.
Hiệu quả năng lượng và tốc độ vận hành là lợi thế cốt lõi khác của dòng này. Trên iPhone 17 Pro Max, phiên bản 8B đạt tốc độ 27 token/giây, tăng khoảng 3 đến 4 lần về hiệu quả năng lượng. Điều này có ý nghĩa lớn đối với các nhà phát triển cần triển khai AI hiệu suất cao trên điện thoại, laptop hoặc các thiết bị cận biên, cho phép sử dụng bộ nhớ nhỏ để đạt hiệu quả gần như mô hình chính xác đầy đủ.
Hiện tại, mô hình Bonsai Ternary đã được hỗ trợ nguyên bản trên thiết bị Apple qua framework MLX. Trọng số của mô hình được phân phối theo giấy phép Apache 2.0.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 8
  • 7
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
WalletHealthInspector
· 7giờ trước
Lượng hóa ba giá trị + MLX nguyên bản, hệ sinh thái của Apple đã khép kín, áp lực từ phe Android ngày càng lớn.
Xem bản gốcTrả lời0
RouterRunner
· 12giờ trước
Dẫn đầu các loại với 75,5 điểm, nhưng chênh lệch so với toàn chính xác là bao nhiêu? Có thử nghiệm loại bỏ nào để xem không?
Xem bản gốcTrả lời0
NeonFusionIceCream
· 12giờ trước
Bộ nhớ GPU giảm xuống còn 1/9, chi phí triển khai biên giảm mạnh, cảm giác điểm ngoặt của AI phía cạnh thật sự đã đến
Xem bản gốcTrả lời0
GateUser-c29c3db9
· 12giờ trước
iPhone 17 Pro Max 27 tok/s,chip của Apple đã cuối cùng bị khai thác hết NPU, hệ sinh thái MLX sắp cất cánh
Xem bản gốcTrả lời0
OrderCancellerAfterTheRain
· 12giờ trước
Tên gọi Bonsai này thật hay, cắt tỉa đến chỉ còn ba giá trị, mô hình thực sự giống như cây cảnh được tỉa tót tinh xảo
Xem bản gốcTrả lời0
TvlTeaTime
· 12giờ trước
Apache 2.0 mã nguồn mở được đánh giá cao, nhưng tôi tò mò về cách huấn luyện như thế nào, làm thế nào để thực hiện truyền ngược trọng số ba giá trị
Xem bản gốcTrả lời0
GateUser-8ca669fd
· 12giờ trước
Lượng hóa ba giá trị {-1,0,+1} , ý tưởng trong bài báo cũ đã được triển khai thực tế, dự án PrismML đã thực hiện rất đẹp trong công tác kỹ thuật hóa này
Xem bản gốcTrả lời0
BugBountyBuddy
· 12giờ trước
1.75GB chạy 8B? Tỷ lệ nén này hơi phi lý, chạy mô hình lớn trên điện thoại di động cuối cùng cũng không còn là mơ nữa
Xem bản gốcTrả lời0
  • Đã ghim