Tin tức từ CoinWorld, Google đã phát hành và mở nguồn mẫu dự thảo dự đoán nhiều token (MTP) của dòng Gemma 4. Đây là một mô hình phụ trợ nhẹ sử dụng kiến trúc giải mã dự đoán (speculative decoding), có thể tăng tốc suy luận tối đa gấp 3 lần dựa trên việc giữ quyền xác nhận cuối cùng của mô hình chính, mà không làm giảm chất lượng đầu ra và khả năng suy luận logic. Mô hình này đã được mở nguồn toàn diện theo giấy phép Apache 2.0 giống như Gemma 4, và hỗ trợ nguyên bản các khung suy luận phổ biến như vllm, sglang và ollama. Việc tối ưu hóa tăng tốc lần này đã giảm đáng kể rào cản ứng dụng, cho phép các nhà phát triển chạy mượt mà các mô hình 26b moe và 31b dày đặc trên card đồ họa tiêu dùng thông thường, cũng như hỗ trợ tương tác AI thời gian thực trên thiết bị di động với mức tiêu thụ năng lượng thấp hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim