PrismML ra mắt mô hình 1.58-bit Ternary Bonsai, giảm tham số gấp 9 lần, độ thông minh vượt trội so với các đối thủ cùng loại

robot
Đang tạo bản tóm tắt
ME Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, PrismML đã phát hành dòng mô hình ngôn ngữ Bonsai Ternary, sử dụng công nghệ trọng số 1.58 bit (trọng số ternary), giảm dung lượng bộ nhớ của mô hình xuống còn 1/9 so với mô hình 16 bit trong khi vẫn duy trì hiệu suất cao. Dòng này bao gồm ba quy mô tham số là 8B, 4B và 1.7B, hiện đã mở mã nguồn trên Hugging Face và hỗ trợ chạy native trên thiết bị Apple.
Mô hình 1.58 bit gọi là mô hình giới hạn trọng số trong mạng neural ở ba giá trị {-1, 0, +1}. So với mô hình 1 bit trước đây (chỉ có {-1, +1}), việc thêm giá trị "0" giúp loại bỏ các kết nối dư thừa, cho phép mô hình giữ khả năng suy luận phức tạp ngay cả với kích thước cực nhỏ.
Tập tin trọng số 8B của Bonsai Ternary mới phát hành chỉ có 1.75 GB, điểm chuẩn trung bình đạt 75.5, cao hơn 5 điểm so với phiên bản 1 bit của chính nó, thậm chí còn vượt trội về "hiệu quả năng lượng" (hiệu suất trên mỗi GB bộ nhớ) so với các mô hình dày đặc cùng loại như Qwen3.
Hiệu quả năng lượng và tốc độ chạy là lợi thế cốt lõi khác của dòng này. Trên iPhone 17 Pro Max, phiên bản 8B đạt tốc độ 27 token/giây, tăng khoảng 3 đến 4 lần về hiệu quả năng lượng. Điều này có ý nghĩa đối với các nhà phát triển cần triển khai AI hiệu suất cao trên điện thoại, laptop hoặc các thiết bị cận biên khác, cho phép sử dụng bộ nhớ rất nhỏ để đạt hiệu quả gần như mô hình chính xác đầy đủ.
Hiện tại, mô hình Bonsai Ternary đã được hỗ trợ native trên thiết bị Apple thông qua framework MLX. Trọng số của mô hình được phân phối theo giấy phép Apache 2.0.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 9
  • 5
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
SweepTheFloor
· 3giờ trước
Hugging Face trực tiếp có thể sử dụng, tối nay sẽ tải xuống thử, xem độ trễ thực tế như thế nào
Xem bản gốcTrả lời0
SushiSlippage
· 15giờ trước
{-1,0,+1} khiến tôi nhớ đến BinaryNet ngày xưa, nhưng lần này có vẻ thật sự hoạt động rồi
Xem bản gốcTrả lời0
HexiHoodie
· 15giờ trước
Hiệu suất năng lượng tăng 3-4 lần, có nghĩa là thời lượng pin cuối cùng sẽ không còn giảm 50% sau nửa giờ nữa
Xem bản gốcTrả lời0
MevInRetrospect
· 15giờ trước
Apache 2.0 mã nguồn mở được đánh giá cao, đây mới là mã nguồn mở thực sự, không giống như một số kêu gào gây chú ý
Xem bản gốcTrả lời0
TheClarityAfterLiquidating
· 15giờ trước
27 tok/s trên điện thoại, nhanh hơn cả khi tôi dùng laptop chạy 7B ngày xưa, thời thế đã thay đổi
Xem bản gốcTrả lời0
0XNightRun
· 15giờ trước
Hỗ trợ gốc của MLX là rất quan trọng, người dùng hệ sinh thái Apple vui mười phần, không cần phải lo lắng về chuyển đổi nữa
Xem bản gốcTrả lời0
PaperSculptureOctopusPosition
· 15giờ trước
Tên gọi Ternary Bonsai thật thú vị, trọng lượng ba giá trị thực sự là một thiết kế tinh xảo cấp cây cảnh nhỏ.
Xem bản gốcTrả lời0
AutumnSlopeCabin
· 15giờ trước
Một phần mười chín bộ nhớ đồ họa? Trước đây còn không dám nghĩ đến, giờ đây iPhone đã có thể chạy mô hình lớn cục bộ rồi
Xem bản gốcTrả lời0
RedTelephoneBoothRuins
· 15giờ trước
1.75GB chạy mô hình 8B, tỷ lệ nén này quá phi lý, AI trên thiết bị di động cuối cùng cũng có thể sử dụng được
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim