Tin tức từ CoinWorld, Google đã triển khai kiến trúc dự đoán đa token (MTP) trên dòng thiết bị Pixel 9 và Pixel 10, trực tiếp tăng tốc mô hình Gemini Nano v3 tích hợp sẵn.


Kiến trúc mới này bằng cách gắn một đầu dự đoán transformer nhẹ vào phần cuối của mô hình chính đã bị đóng băng, đã cải thiện tốc độ suy luận trên thiết bị lên hơn 50%, đồng thời giữ nguyên sự liên kết an toàn và chất lượng đầu ra ban đầu.
Để tránh chi phí bộ nhớ lặp lại trong quá trình tính toán nháp khi sinh tự hồi quy, Google đã thiết kế cơ chế sao chép không, tái sử dụng thành công các kích hoạt đặc trưng đã tính toán của mô hình chính, cải thiện đáng kể độ chính xác dự đoán của các token ứng viên.
Kiến trúc này trong thực tế kinh doanh giúp mô hình dự đoán trung bình thành công thêm gần 2 token mỗi lần suy luận, giảm tần suất bộ xử lý chính bị đánh thức thường xuyên do kiểm tra, từ đó tiết kiệm năng lượng hệ thống.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 2
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
DewdropSapling
· 2giờ trước
Google với kiến trúc MTP này quả thực có chút đỉnh, tăng tốc 50% lại tiết kiệm năng lượng, AI di động sắp thay đổi lớn rồi.
Xem bản gốcTrả lời0
AirdropCartographer
· 2giờ trước
Cơ chế zero-copy được thiết kế khá khéo léo, tái sử dụng kích hoạt đặc trưng để tránh bùng nổ bộ nhớ, chi tiết kỹ thuật rất chu đáo.
Xem bản gốcTrả lời0
  • Đã ghim