Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind phát hành DiffusionGemma, là thành viên mới trong gia đình mã nguồn mở Gemma 4.
Các thử nghiệm chính thức cho thấy, trên Nvidia RTX 5090 có thể đạt khoảng 700 token mỗi giây, trên H100 vượt qua 1.000 token mỗi giây, gấp khoảng 4 lần so với mô hình Gemma tự hồi quy cùng kích thước.
(Tiền sử: Google ra mắt mô hình mã nguồn mở Gemma 4 12B, có thể chạy cục bộ trên laptop tiêu dùng 16GB)
(Bổ sung nền: Vượt mặt mô hình Google! Tether ra mắt AI y tế "có thể chạy trên điện thoại" QVAC MedPsy, cắt đứt đám mây, giải quyết vấn đề quyền riêng tư)
Mục lục bài viết
Toggle
Lần này, Google DeepMind đã đưa vào một dạng dị trong gia đình mã nguồn mở Gemma 4.
Hầu hết các mô hình ngôn ngữ sinh ra văn bản đều theo cách "tự hồi quy", đơn giản là từ trái sang phải, từng chữ một, chữ trước quyết định xác suất chữ sau, hoàn thành một đoạn đầu ra theo thứ tự.
Cách làm của DiffusionGemma hoàn toàn ngược lại: nó trước tiên phủ đầy các ký hiệu giữ chỗ trên một "bức tranh", rồi lặp đi lặp lại nhiều vòng "loại nhiễu" toàn bộ nội dung, cuối cùng xuất ra toàn bộ bản thảo cuối cùng trong một lần. Logic này gần hơn cách tạo hình ảnh của Stable Diffusion, chứ không phải cách GPT sinh văn bản.
Google chính thức cho biết, kiến trúc này có lợi thế về tốc độ có thể đo lường được trên phần cứng cục bộ, và được mở bằng giấy phép Apache 2.0 cho các nhà phát triển và nhà nghiên cứu sử dụng.
Mô hình sinh chữ không theo thứ tự trông như thế nào
DiffusionGemma sử dụng kiến trúc "chuyên gia hỗn hợp" (MoE).
Ý tưởng của MoE là, trong mô hình có rất nhiều "chuyên gia" là các mạng con, nhưng mỗi lần suy luận chỉ kích hoạt một phần trong số đó, chứ không dùng toàn bộ tham số mỗi lần. Nói dễ hiểu là, dù toàn bộ mô hình rất lớn, nhưng mỗi lần tính toán chỉ gọi những chuyên gia cần thiết. Tổng tham số của DiffusionGemma là 26 tỷ (26B), khi suy luận chỉ kích hoạt thực tế 3,8 tỷ (3.8B). Điều này giúp nó có thể chạy trong VRAM 18GB của card đồ họa cao cấp, đặc biệt sau khi lượng hóa.
Quy trình sinh còn đáng để phân tích hơn. Mô hình tự hồi quy tiêu chuẩn là dây chuyền tuyến tính: token thứ nhất sinh ra rồi mới bắt đầu tính token thứ hai, cứ thế tiếp tục.
Trong khi đó, DiffusionGemma trước tiên phủ các token giữ chỗ trên toàn bộ vùng xuất ra, rồi thực hiện nhiều vòng loại nhiễu, mỗi vòng đều cập nhật đồng thời tất cả các vị trí token, sửa đổi ước lượng lẫn nhau, cho đến khi toàn bộ nội dung hội tụ thành kết quả cuối cùng. Một lần có thể xử lý đồng thời tối đa 256 token.
Thiết kế này đặc biệt có ý nghĩa đối với "nhiệm vụ phi tuyến". Google lấy ví dụ là giải Sudoku: mô hình tự hồi quy bình thường thể hiện trung bình, vì việc điền đúng một ô thường phụ thuộc vào các ô chưa quyết định khác, nhưng tự hồi quy chỉ đi theo thứ tự, không thể quay lại. Trong khi đó, DiffusionGemma có thể liên tục tự sửa các token trong toàn bộ nhóm, phù hợp hơn về lý thuyết với các nhiệm vụ có mối quan hệ phụ thuộc phức tạp.
Các ứng dụng khác được đề cập chính thức gồm: chỉnh sửa nội tuyến (in-line editing), sinh chuỗi phân tử, vẽ đồ toán.
Ưu thế về tốc độ đến từ đâu
Xét về phần cứng, tốc độ suy luận của mô hình tự hồi quy bị giới hạn bởi "băng thông bộ nhớ", mỗi token xuất ra phải đọc một lần trọng số mô hình từ bộ nhớ, tốc độ di chuyển dữ liệu là điểm nghẽn. Trong khi đó, điểm nghẽn của mô hình khuếch tán lại khác: nó là "tổng lực tính toán", xử lý nhiều token cùng lúc, mỗi token thì ít bị hạn chế bởi số lần đọc bộ nhớ hơn nhiều.
Việc chuyển đổi điểm nghẽn này mang ý nghĩa kinh tế thực tế. Hiện nay, GPU có sức mạnh tính toán thường vượt xa băng thông bộ nhớ, cách sinh tự hồi quy "một token một lần" khiến các đơn vị tính toán đắt tiền phải chờ dữ liệu từ bộ nhớ, lâu dài trong trạng thái bán nhàn rỗi.
Sinh theo kiểu khuếch tán phân tán công việc thành nhiều tính toán song song, giúp tận dụng tối đa sức mạnh GPU, đặc biệt trong các ứng dụng cần thời gian dài, xử lý hàng loạt lớn. Tính năng "tận dụng phần cứng tối đa" này đôi khi còn quan trọng hơn tốc độ số.
Điều này thể hiện rõ trên GPU hiện đại. Thử nghiệm của Google cho biết: Trên Nvidia RTX 5090 tiêu dùng, DiffusionGemma đạt khoảng 700 token mỗi giây; trên H100 AI của trung tâm dữ liệu, vượt quá 1.000 token mỗi giây. Theo tự đánh giá của Google, tốc độ này gấp khoảng 4 lần so với mô hình Gemma tự hồi quy cùng kích thước.
Lưu ý, các con số này đều đến từ thử nghiệm chính thức của Google, chưa qua xác nhận độc lập của bên thứ ba. Trong các kịch bản khác nhau, độ dài sinh khác nhau, tốc độ thực tế có thể chênh lệch.
Giá của tốc độ: Chất lượng bị tụt hậu trong tất cả các tiêu chuẩn
Tuy nhiên, trong tất cả các tiêu chuẩn công khai đã công bố, điểm số của DiffusionGemma đều thấp hơn Gemma 4 tiêu chuẩn. Nói cách khác, tốc độ gấp 4 lần không phải là điều tự nhiên, mà phải trả giá bằng sự giảm chất lượng sinh ra.
Sự đánh đổi này mang ý nghĩa khác nhau tùy theo từng tình huống sử dụng. Nếu bạn quan tâm đến số lượng đầu ra mỗi giây, ví dụ như xử lý hàng loạt quy mô lớn, chạy cục bộ trên thiết bị biên, hoặc các ứng dụng nhạy về độ trễ, thì ưu thế tốc độ của DiffusionGemma là thực. Còn nếu nhiệm vụ yêu cầu độ chính xác cao, thì Gemma 4 vẫn là lựa chọn đáng tin cậy hơn.
Với cộng đồng AI cục bộ, mô hình này thể hiện rõ một hướng đánh đổi: trên phần cứng cục bộ hạn chế, bạn sẵn sàng đổi lấy bao nhiêu chất lượng để lấy bao nhiêu tốc độ? Câu hỏi này, giờ đã có một điểm tham khảo để thử nghiệm trực tiếp. Giấy phép Apache 2.0 cho phép bất kỳ nhà phát triển nào cũng có thể tinh chỉnh và nghiên cứu dựa trên nó, giới hạn của sinh ngôn ngữ khuếch tán sẽ còn phụ thuộc vào cộng đồng thử nghiệm.