Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind phát hành DiffusionGemma, là thành viên mới trong gia đình mã nguồn mở Gemma 4.
Các thử nghiệm chính thức cho thấy, trên Nvidia RTX 5090 có thể đạt khoảng 700 token mỗi giây, trên H100 vượt qua 1.000 token mỗi giây, gấp khoảng 4 lần so với mô hình Gemma tự hồi quy cùng kích thước.
(Tiền sử: Google ra mắt mô hình mã nguồn mở Gemma 4 12B, có thể chạy cục bộ trên laptop tiêu dùng 16GB)
(Bổ sung nền: Vượt mặt mô hình Google! Tether ra mắt AI y tế "có thể chạy trên điện thoại" QVAC MedPsy, cắt đứt đám mây, giải quyết vấn đề quyền riêng tư)

Mục lục bài viết

Toggle

  • Mô hình sinh chữ không theo thứ tự trông như thế nào
  • Ưu thế về tốc độ đến từ đâu
  • Giá của tốc độ: Chất lượng bị tụt hậu trong tất cả các tiêu chuẩn

Lần này, Google DeepMind đã đưa vào một dạng dị trong gia đình mã nguồn mở Gemma 4.
Hầu hết các mô hình ngôn ngữ sinh ra văn bản đều theo cách "tự hồi quy", đơn giản là từ trái sang phải, từng chữ một, chữ trước quyết định xác suất chữ sau, hoàn thành một đoạn đầu ra theo thứ tự.

Cách làm của DiffusionGemma hoàn toàn ngược lại: nó trước tiên phủ đầy các ký hiệu giữ chỗ trên một "bức tranh", rồi lặp đi lặp lại nhiều vòng "loại nhiễu" toàn bộ nội dung, cuối cùng xuất ra toàn bộ bản thảo cuối cùng trong một lần. Logic này gần hơn cách tạo hình ảnh của Stable Diffusion, chứ không phải cách GPT sinh văn bản.

Google chính thức cho biết, kiến trúc này có lợi thế về tốc độ có thể đo lường được trên phần cứng cục bộ, và được mở bằng giấy phép Apache 2.0 cho các nhà phát triển và nhà nghiên cứu sử dụng.

Mô hình sinh chữ không theo thứ tự trông như thế nào

DiffusionGemma sử dụng kiến trúc "chuyên gia hỗn hợp" (MoE).

Ý tưởng của MoE là, trong mô hình có rất nhiều "chuyên gia" là các mạng con, nhưng mỗi lần suy luận chỉ kích hoạt một phần trong số đó, chứ không dùng toàn bộ tham số mỗi lần. Nói dễ hiểu là, dù toàn bộ mô hình rất lớn, nhưng mỗi lần tính toán chỉ gọi những chuyên gia cần thiết. Tổng tham số của DiffusionGemma là 26 tỷ (26B), khi suy luận chỉ kích hoạt thực tế 3,8 tỷ (3.8B). Điều này giúp nó có thể chạy trong VRAM 18GB của card đồ họa cao cấp, đặc biệt sau khi lượng hóa.

Quy trình sinh còn đáng để phân tích hơn. Mô hình tự hồi quy tiêu chuẩn là dây chuyền tuyến tính: token thứ nhất sinh ra rồi mới bắt đầu tính token thứ hai, cứ thế tiếp tục.

Trong khi đó, DiffusionGemma trước tiên phủ các token giữ chỗ trên toàn bộ vùng xuất ra, rồi thực hiện nhiều vòng loại nhiễu, mỗi vòng đều cập nhật đồng thời tất cả các vị trí token, sửa đổi ước lượng lẫn nhau, cho đến khi toàn bộ nội dung hội tụ thành kết quả cuối cùng. Một lần có thể xử lý đồng thời tối đa 256 token.

Thiết kế này đặc biệt có ý nghĩa đối với "nhiệm vụ phi tuyến". Google lấy ví dụ là giải Sudoku: mô hình tự hồi quy bình thường thể hiện trung bình, vì việc điền đúng một ô thường phụ thuộc vào các ô chưa quyết định khác, nhưng tự hồi quy chỉ đi theo thứ tự, không thể quay lại. Trong khi đó, DiffusionGemma có thể liên tục tự sửa các token trong toàn bộ nhóm, phù hợp hơn về lý thuyết với các nhiệm vụ có mối quan hệ phụ thuộc phức tạp.

Các ứng dụng khác được đề cập chính thức gồm: chỉnh sửa nội tuyến (in-line editing), sinh chuỗi phân tử, vẽ đồ toán.

Ưu thế về tốc độ đến từ đâu

Xét về phần cứng, tốc độ suy luận của mô hình tự hồi quy bị giới hạn bởi "băng thông bộ nhớ", mỗi token xuất ra phải đọc một lần trọng số mô hình từ bộ nhớ, tốc độ di chuyển dữ liệu là điểm nghẽn. Trong khi đó, điểm nghẽn của mô hình khuếch tán lại khác: nó là "tổng lực tính toán", xử lý nhiều token cùng lúc, mỗi token thì ít bị hạn chế bởi số lần đọc bộ nhớ hơn nhiều.

Việc chuyển đổi điểm nghẽn này mang ý nghĩa kinh tế thực tế. Hiện nay, GPU có sức mạnh tính toán thường vượt xa băng thông bộ nhớ, cách sinh tự hồi quy "một token một lần" khiến các đơn vị tính toán đắt tiền phải chờ dữ liệu từ bộ nhớ, lâu dài trong trạng thái bán nhàn rỗi.

Sinh theo kiểu khuếch tán phân tán công việc thành nhiều tính toán song song, giúp tận dụng tối đa sức mạnh GPU, đặc biệt trong các ứng dụng cần thời gian dài, xử lý hàng loạt lớn. Tính năng "tận dụng phần cứng tối đa" này đôi khi còn quan trọng hơn tốc độ số.

Điều này thể hiện rõ trên GPU hiện đại. Thử nghiệm của Google cho biết: Trên Nvidia RTX 5090 tiêu dùng, DiffusionGemma đạt khoảng 700 token mỗi giây; trên H100 AI của trung tâm dữ liệu, vượt quá 1.000 token mỗi giây. Theo tự đánh giá của Google, tốc độ này gấp khoảng 4 lần so với mô hình Gemma tự hồi quy cùng kích thước.

Lưu ý, các con số này đều đến từ thử nghiệm chính thức của Google, chưa qua xác nhận độc lập của bên thứ ba. Trong các kịch bản khác nhau, độ dài sinh khác nhau, tốc độ thực tế có thể chênh lệch.

Giá của tốc độ: Chất lượng bị tụt hậu trong tất cả các tiêu chuẩn

Tuy nhiên, trong tất cả các tiêu chuẩn công khai đã công bố, điểm số của DiffusionGemma đều thấp hơn Gemma 4 tiêu chuẩn. Nói cách khác, tốc độ gấp 4 lần không phải là điều tự nhiên, mà phải trả giá bằng sự giảm chất lượng sinh ra.

Sự đánh đổi này mang ý nghĩa khác nhau tùy theo từng tình huống sử dụng. Nếu bạn quan tâm đến số lượng đầu ra mỗi giây, ví dụ như xử lý hàng loạt quy mô lớn, chạy cục bộ trên thiết bị biên, hoặc các ứng dụng nhạy về độ trễ, thì ưu thế tốc độ của DiffusionGemma là thực. Còn nếu nhiệm vụ yêu cầu độ chính xác cao, thì Gemma 4 vẫn là lựa chọn đáng tin cậy hơn.

Với cộng đồng AI cục bộ, mô hình này thể hiện rõ một hướng đánh đổi: trên phần cứng cục bộ hạn chế, bạn sẵn sàng đổi lấy bao nhiêu chất lượng để lấy bao nhiêu tốc độ? Câu hỏi này, giờ đã có một điểm tham khảo để thử nghiệm trực tiếp. Giấy phép Apache 2.0 cho phép bất kỳ nhà phát triển nào cũng có thể tinh chỉnh và nghiên cứu dựa trên nó, giới hạn của sinh ngôn ngữ khuếch tán sẽ còn phụ thuộc vào cộng đồng thử nghiệm.

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim