Tăng tốc tối đa gấp 3 lần và không mất mát, mô hình giải mã dự đoán MTP toàn bộ dòng của Google mã nguồn mở Gemma4

Theo giám sát Beating, Google đã phát hành và mã nguồn mở bản nháp của dòng mô hình dự đoán nhiều token (MTP) của Gemma 4. Đây là một mô hình phụ trợ nhẹ sử dụng kiến trúc giải mã dự đoán (speculative decoding), có thể tăng tốc suy luận tối đa gấp 3 lần dựa trên việc giữ lại quyền xác nhận cuối cùng của mô hình chính, mà không làm giảm chất lượng đầu ra và khả năng suy luận logic.

Mô hình ngôn ngữ lớn tiêu chuẩn mỗi lần chỉ có thể sinh ra một token, dễ bị giới hạn bởi băng thông bộ nhớ GPU và gây ra lãng phí tính toán. Giải pháp MTP cho phép mô hình nháp nhẹ tận dụng sức mạnh tính toán còn thừa, dự đoán trước một lần nhiều token tương lai, rồi gửi cho mô hình mục tiêu nặng như 31B để xác nhận song song. Nếu mô hình mục tiêu đồng ý với bản nháp, nó sẽ nhận toàn bộ chuỗi cùng lúc. Để nâng cao hiệu quả, mô hình nháp còn chia sẻ trạng thái kích hoạt và bộ đệm KV của mô hình mục tiêu (lưu trữ ngữ cảnh lịch sử để tránh tính toán lặp lại); đối với các mô hình E2B và E4B ở phía cuối, nhóm còn giới thiệu kỹ thuật phân cụm trong lớp nhúng.

Hiện tại, mô hình MTP đã được mở nguồn hoàn toàn theo giấy phép Apache 2.0 giống như Gemma 4, và hỗ trợ nguyên bản các framework suy luận phổ biến như vLLM, SGLang và Ollama. Việc tối ưu hóa tốc độ này đã giảm đáng kể rào cản ứng dụng, cho phép các nhà phát triển chạy mượt mà các mô hình MoE 26B và mô hình dày đặc 31B trên card đồ họa tiêu dùng thông thường, cũng như hỗ trợ tương tác AI thời gian thực trên thiết bị di động với mức tiêu thụ năng lượng thấp hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim