Google Pixel triển khai MTP sao chép không, Gemini Nano tăng tốc suy luận hơn 50% và tiết kiệm bộ nhớ

robot
Đang tạo bản tóm tắt

Theo giám sát của Động Sát Beating, Google đã triển khai kiến trúc Dự đoán Đa Token (MTP) trên dòng thiết bị Pixel 9 và Pixel 10, trực tiếp tăng tốc mô hình Gemini Nano v3 tích hợp sẵn. Bằng cách gắn các đầu dự đoán Transformer nhẹ vào phần cuối của mô hình chính đã được đóng băng, kiến trúc mới vừa giữ nguyên hoàn toàn sự căn chỉnh an toàn và chất lượng đầu ra ban đầu, vừa tăng tốc độ suy luận trên thiết bị lên hơn 50%.

Giải mã đầu cơ truyền thống yêu cầu chạy một mô hình nháp độc lập để dự đoán các Token ứng viên. Điều này không chỉ chiếm thêm bộ nhớ chạy của điện thoại, mà còn do mô hình độc lập không thể truy cập trạng thái ẩn bên trong của mô hình chính, dẫn đến độ chính xác dự đoán bị hạn chế. Kiến trúc mới bằng cách nhúng đầu MTP vào phần cuối của mô hình chính đã đóng băng, thành công tái sử dụng các đặc trưng đã tính toán của mô hình chính, cải thiện đáng kể độ chính xác dự đoán của các Token ứng viên.

Để tránh chi phí bộ nhớ chạy trùng lặp khi tính toán nháp trong quá trình sinh tự hồi quy, Google đã thiết kế cơ chế sao chép không (zero-copy). Trong giải pháp truyền thống, khi mô hình nháp tạo ra từ ứng viên cần duy trì bộ nhớ đệm khóa-giá trị (KV cache) độc lập, trong khi cơ chế sao chép không cho phép đầu dự đoán ngoài trực tiếp đọc bộ nhớ đệm có sẵn của mô hình chính thông qua Chú ý chéo (Cross-Attention). Điều này không chỉ loại bỏ độ trễ khởi động của dự đoán nháp, mà còn tiết kiệm khoảng 130MB bộ nhớ chạy cho điện thoại.

Trong các tác vụ thực tế của Pixel như tóm tắt thông báo và hiệu đính văn bản, kiến trúc MTP giúp mô hình trung bình dự đoán thành công thêm gần 2 Token mỗi lần suy luận, giảm tần suất bộ xử lý chính bị đánh thức thường xuyên do kiểm tra, từ đó tiết kiệm năng lượng hệ thống. Trong các tác vụ sinh văn bản có cấu trúc cao như trả lời thông minh, tỷ lệ chấp nhận Token tăng lên 55%.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim