Google ra mắt mô hình mã nguồn mở Gemma 4 12B, có thể chạy cục bộ trên laptop tiêu dùng 16GB

Google bổ sung phát hành khoảng trống trong gia đình Gemma 4: Mô hình mới 12B tham số chỉ cần 16GB bộ nhớ để chạy cục bộ trên laptop tiêu dùng, điểm chuẩn chính thức gần gấp đôi phiên bản MoE 26B lớn hơn.
(Tiền sử: Google ra mắt ứng dụng AI hoàn toàn mới Dreambeans! Biến cuộc sống hàng ngày của bạn thành "câu chuyện hoạt hình" giới hạn)
(Bổ sung nền: Google đổ mạnh vào AI! Alphabet mở rộng huy động vốn cổ phần lên 85 tỷ đô la, nhận vốn đầu tư 100 tỷ USD từ Berkshire Hathaway)

Ngày 3 tháng 6, Google phát hành Gemma 4 12B, mô hình này yêu cầu phần cứng không cần một bộ tăng tốc AI trị giá hàng chục nghìn đô la, chỉ cần máy tính có 16GB bộ nhớ hệ thống (RAM) hoặc bộ nhớ card đồ họa (VRAM) là có thể chạy cục bộ.

Khoảng trống trong gia đình Gemma 4

Tháng 4 năm nay, Google ra mắt lần đầu tiên gia đình Gemma 4 gồm bốn mô hình: E2B và E4B tối ưu cho thiết bị di động, cùng với 26B MoE và 31B Dense dành cho phía máy chủ. Đây là dòng sản phẩm bao phủ từ nhẹ đến nặng, nhưng còn một khoảng trống rõ ràng ở giữa, phiên bản dành cho thiết bị di động quá nhẹ, còn trên 26B thì yêu cầu phần cứng khá cao, gần như không có lựa chọn cho cảnh sử dụng laptop cục bộ.

12B chính là để lấp đầy vị trí này.

Thêm một chút giải thích. 26B MoE là "mô hình chuyên gia hỗn hợp", MoE nghĩa là: mô hình gọi các chuyên gia thần kinh theo nhu cầu, không cần huy động toàn bộ tham số mỗi lần suy luận. Nói đơn giản, cấu trúc này cho phép mô hình chỉ kích hoạt một tập con trong quá trình tính toán, mỗi token của phiên bản 26B thực tế chỉ dùng khoảng 4B tham số. Nhưng đổi lại, toàn bộ 260 tỷ tham số vẫn phải được tải sẵn vào bộ nhớ để duy trì tốc độ định tuyến và suy luận, do đó dung lượng bộ nhớ gần như bằng một mô hình dày đặc cùng kích thước.

31B Dense là "mô hình dày đặc", mỗi lần suy luận đều sử dụng toàn bộ tham số theo cấu trúc truyền thống. Nói đơn giản, không tiết kiệm gì, mỗi lần trả lời đều toàn lực. So sánh, Gemma 4 12B tiêu thụ bộ nhớ thực tế khoảng 8.1GB, gần bằng một nửa của 26B MoE.

Cùng lúc đó, gia đình Gemma 4 tiếp tục sử dụng giấy phép Apache 2.0 đã đổi mới trong năm nay, đây là loại giấy phép mở cho phép sử dụng thương mại, chỉnh sửa và phát hành lại, nhà phát triển có thể trực tiếp dùng để chạy sản phẩm của mình mà không cần xin phép từng trường hợp.

"Gần như cùng sức mạnh"

Google tuyên bố trong thông báo rằng, Gemma 4 12B "gần như mạnh tương đương" với phiên bản 26B MoE lớn gấp đôi. Các điểm chuẩn chính thức bao gồm GPQA Diamond (trí tuệ khoa học cấp cao của sinh viên tốt nghiệp), MMLU Pro (kiến thức đa lĩnh vực), DocVQA (hỏi đáp hình ảnh tài liệu) và các chỉ số khác, các số liệu thực tế gần như tiếp cận phiên bản 26B.

Tuy nhiên, có vài điểm cần giữ thái độ thận trọng khi xem xét các con số này.

Thứ nhất, đây là điểm chuẩn tự đánh giá của Google, chưa được xác nhận đầy đủ bởi các bên thứ ba độc lập. Điểm chuẩn là bước khởi đầu, không phải điểm đích, các ứng dụng thực tế có thể chênh lệch lớn hơn hoặc nhỏ hơn so với điểm số này. Thứ hai, "16GB có thể chạy" về mặt kỹ thuật là chính xác, nhưng thực tế đo được bộ nhớ tiêu thụ khoảng 8.1GB, đối với một chiếc laptop hàng ngày mở trình duyệt, phần còn lại khá chặt chẽ, không phải ai cũng có thể chạy trơn tru.

Gemma 4 12B cũng là một mô hình đa phương thức, sử dụng kiến trúc thống nhất không mã hóa, nghĩa là cùng một mô hình có thể xử lý trực tiếp văn bản, hình ảnh, âm thanh và video đầu vào, không cần phải gắn thêm các thành phần mã hóa riêng biệt.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim