Google DeepMind mở mã nguồn gia đình mô hình đa phương thức Gemma 4

robot
Đang tạo bản tóm tắt

Tin ME, ngày 3 tháng 4 (UTC+8), Google DeepMind gần đây đã mở mã nguồn gia đình mô hình đa phương thức Gemma 4.
Dòng mô hình này hỗ trợ đầu vào văn bản và hình ảnh (mô hình nhỏ còn hỗ trợ âm thanh), tạo ra đầu ra văn bản, bao gồm các biến thể tiền huấn luyện và tinh chỉnh theo hướng dẫn, cửa sổ ngữ cảnh tối đa lên đến 256K token, và hỗ trợ hơn 140 ngôn ngữ.
Mô hình sử dụng hai kiến trúc là mật độ (Dense) và chuyên gia hỗn hợp (MoE), gồm bốn kích thước là E2B, E4B, 26B A4B và 31B.
Các khả năng cốt lõi bao gồm suy luận hiệu suất cao, mở rộng xử lý đa phương thức, tối ưu hóa trên thiết bị, mở rộng cửa sổ ngữ cảnh, nâng cao khả năng mã hóa và trí tuệ nhân tạo, cũng như hỗ trợ hệ thống gợi ý gốc.
Về mặt kỹ thuật, mô hình sử dụng cơ chế chú ý hỗn hợp, các lớp toàn cục dùng các cặp khóa-giá trị thống nhất và RoPE tỷ lệ (p-RoPE).
Trong đó, mô hình E2B và E4B sử dụng công nghệ nhúng theo lớp (PLE), số tham số hiệu quả ít hơn tổng số tham số.
Trong khi đó, mô hình MoE 26B A4B chỉ kích hoạt 3.8B tham số trong quá trình suy luận, tốc độ chạy gần bằng mô hình 4B tham số.
(Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim