Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind випустила DiffusionGemma — нового члена сімейства з відкритим кодом Gemma 4. Офіційні тести показують, що на Nvidia RTX 5090 швидкість досягає приблизно 700 токенів за секунду, а на H100 — понад 1000 токенів за секунду, що приблизно у 4 рази більше, ніж у одноразової автогенного моделі Gemma того ж розміру.
(Передісторія: Google випустила Gemma 4 12B — відкриту модель, яку можна запускати локально на 16 ГБ ноутбуках)
(Додатковий фон: Перевершує моделі Google! Tether випустила «мобільний» медичний AI QVAC MedPsy, розірвавши хмарні обмеження та подолавши проблеми приватності)

Зміст статті

Перемикач

  • Як виглядає модель, яка не генерує послідовно
  • Звідки береться перевага швидкості
  • Ціна за швидкість: якість у всіх бенчмарках поступається

Цього разу Google DeepMind додала до сімейства Gemma 4 щось незвичайне. Більшість мовних моделей генерують текст за принципом «автогенного» підходу: просто зліва направо, по одному слову, кожне наступне слово визначається ймовірністю залежно від попереднього, формуючи послідовність.

Повністю протилежний підхід у DiffusionGemma: спочатку на «полотні» розміщується заповнювачі, потім кілька разів «очищають» всю область, поступово «знімаючи шум», і в кінці один раз генерують остаточний текст. Ця логіка ближча до способу створення зображень у Stable Diffusion, ніж до GPT, що генерує текст.

Офіційно Google заявляє, що така архітектура має кількісну перевагу у швидкості на локальному обладнанні, і вона доступна для розробників і дослідників під ліцензією Apache 2.0.

Як виглядає модель, яка не генерує послідовно

DiffusionGemma використовує архітектуру «змішаних експертів» (MoE).

Концепція MoE полягає в тому, що всередині моделі є багато «експертних» підмереж, але під час кожного висновку активується лише частина з них, а не всі параметри одночасно. Простими словами, хоча модель дуже велика, під час обчислень залучаються лише необхідні експерти. Загальна кількість параметрів DiffusionGemma становить 26 мільярдів (26B), а під час висновку активується лише 3,8 мільярда (3.8B). Це дозволяє запускати її на високопродуктивних відеокартах з 18 ГБ VRAM, особливо у кількісному режимі.

Процес генерації більш детально. Стандартна автогенного модель — це лінійна виробнича лінія: перший токен згенерувався — тоді починається обчислення другого, і так далі.

DiffusionGemma ж спочатку заповнює всю область вихідних токенів заповнювачами, а потім виконує кілька раундів «очищення», під час яких усі позиції оновлюються одночасно, взаємно коригуючи свої оцінки, доки весь блок не стабілізується у фінальний результат. Максимальна кількість одночасно оброблюваних токенів — 256.

Цей дизайн має особливе значення для «нелінійних завдань». Приклад, який наводить Google — розв’язання судоку: традиційна автогенного модель показує посередні результати, оскільки правильне заповнення однієї клітинки часто залежить від інших, ще не визначених, клітинок, а автогенного підходу рухається послідовно і не може повернути назад. DiffusionGemma здатна постійно коригувати весь набір токенів, що теоретично дає перевагу у завданнях з складною логічною залежністю.

Інші застосовні сценарії, згадані офіційно, включають: редагування в реальному часі, генерацію молекулярних послідовностей, математичне малювання.

Звідки береться перевага швидкості

З точки зору апаратного забезпечення, швидкість висновку автогенної моделі обмежена «пропускною здатністю пам’яті»: кожен токен вимагає зчитування ваг з пам’яті, і швидкість передачі даних є вузьким місцем. У випадку з моделями розсіювання — інша проблема: це «обчислювальна інтенсивність», тобто багато обчислень за раз, але кожен токен читається з пам’яті набагато менше разів.

Це перенесення вузького місця має практичне економічне значення. Сучасні GPU зазвичай мають набагато більшу обчислювальну потужність, ніж пропускну здатність пам’яті. Тому генерація за автогенною моделлю — це фактично витрачання дорогої обчислювальної потужності на очікування даних з пам’яті, що тривалий час залишає GPU у напівпроста.

Розсіювальна генерація розподіляє обсяг роботи на багато паралельних обчислень, що дозволяє максимально використовувати обчислювальні ресурси GPU. Для застосувань, що вимагають довгого часу та великих пакетів обробки, ця «ефективність використання апаратури» іноді важливіша за чисту швидкість.

Ця різниця проявляється у реальній швидкості на сучасних GPU. Офіційні тести Google показують: на споживчому Nvidia RTX 5090 DiffusionGemma генерує близько 700 токенів за секунду; на серверному Nvidia H100 — понад 1000 токенів за секунду. За оцінками Google, це приблизно у 4 рази швидше за стандартну Gemma 4 того ж розміру.

Звертаємо увагу, що ці цифри взяті з офіційних тестів Google і не є незалежною перевіркою. В реальних сценаріях і при різній довжині генерації швидкість може коливатися.

Ціна за швидкість: якість у всіх бенчмарках поступається

Однак у всіх оприлюднених публічних бенчмарках DiffusionGemma показує результати нижчі за стандартний Gemma 4. Іншими словами, 4-кратна швидкість досягається ціною систематичного зниження якості генерації.

Це компроміс має різне значення залежно від сценарію застосування. Якщо важливо кожної секунди отримати багато результатів, наприклад, для масової обробки, запуску на периферійних пристроях або застосувань з високою чутливістю до затримки, переваги DiffusionGemma очевидні. Якщо ж пріоритет — якість відповіді, стандартна Gemma 4 залишається більш надійним вибором.

Для локальних AI-спільнот цей модельний підхід ілюструє конкретний вибір: скільки якості ви готові втратити заради швидкості на обмеженому локальному обладнанні? Це питання тепер має конкретний реальний приклад для експериментів. Ліцензія Apache 2.0 дозволяє будь-якому розробнику доопрацьовувати і досліджувати цю модель, а потенціал розсіювального мовного генератора тепер залежить від активності спільноти.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено