Google mở nguồn Gemma 4 toàn bộ hệ thống mô hình giải mã MTP đầu cơ, tăng tốc tối đa gấp 3 lần

robot
Đang tạo bản tóm tắt

Thông báo từ Coinjie.com, Google đã phát hành và mở mã nguồn dự thảo mô hình dự đoán nhiều token (MTP) của dòng Gemma 4.
Mô hình này sử dụng kiến trúc giải mã dựa trên dự đoán, có thể tăng tốc suy luận tối đa gấp 3 lần dựa trên việc giữ quyền xác nhận cuối cùng của mô hình chính, mà không làm giảm chất lượng đầu ra.
Giải pháp MTP tận dụng sức mạnh tính toán còn thừa để dự đoán trước nhiều token trong tương lai, sau đó gửi cho mô hình mục tiêu nặng để xác nhận song song.
Nếu mô hình mục tiêu đồng ý với dự thảo, nó sẽ nhận toàn bộ đoạn chuỗi một lần.
Mô hình dự thảo chia sẻ trạng thái kích hoạt và bộ đệm KV của mô hình mục tiêu, đối với các mô hình E2B và E4B, nhóm đã giới thiệu kỹ thuật phân cụm trong lớp nhúng.
Hiện tại, mô hình MTP đã hoàn toàn mở mã nguồn, hỗ trợ các framework suy luận phổ biến như VLLM, SGLang và Ollama.
Việc tối ưu này đã giảm đáng kể rào cản ứng dụng, cho phép nhà phát triển chạy mượt mà các mô hình 26B MOE và 31B dày đặc trên card đồ họa tiêu dùng thông thường, cũng như hỗ trợ tương tác AI thời gian thực trên thiết bị di động với tiêu thụ năng lượng thấp hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim