Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
IPO Access
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
USD1 Відсотки за холдинг
20%
Без блоку, вивід у будь-який час
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind випустила DiffusionGemma — нового члена сімейства з відкритим кодом Gemma 4. Офіційні тести показують, що на Nvidia RTX 5090 швидкість досягає приблизно 700 токенів за секунду, а на H100 — понад 1000 токенів за секунду, що приблизно у 4 рази більше, ніж у одноразової автогенного моделі Gemma того ж розміру.
(Передісторія: Google випустила Gemma 4 12B — відкриту модель, яку можна запускати локально на 16 ГБ ноутбуках)
(Додатковий фон: Перевершує моделі Google! Tether випустила «мобільний» медичний AI QVAC MedPsy, розірвавши хмарні обмеження та подолавши проблеми приватності)
Зміст статті
Перемикач
Цього разу Google DeepMind додала до сімейства Gemma 4 щось незвичайне. Більшість мовних моделей генерують текст за принципом «автогенного» підходу: просто зліва направо, по одному слову, кожне наступне слово визначається ймовірністю залежно від попереднього, формуючи послідовність.
Повністю протилежний підхід у DiffusionGemma: спочатку на «полотні» розміщується заповнювачі, потім кілька разів «очищають» всю область, поступово «знімаючи шум», і в кінці один раз генерують остаточний текст. Ця логіка ближча до способу створення зображень у Stable Diffusion, ніж до GPT, що генерує текст.
Офіційно Google заявляє, що така архітектура має кількісну перевагу у швидкості на локальному обладнанні, і вона доступна для розробників і дослідників під ліцензією Apache 2.0.
Як виглядає модель, яка не генерує послідовно
DiffusionGemma використовує архітектуру «змішаних експертів» (MoE).
Концепція MoE полягає в тому, що всередині моделі є багато «експертних» підмереж, але під час кожного висновку активується лише частина з них, а не всі параметри одночасно. Простими словами, хоча модель дуже велика, під час обчислень залучаються лише необхідні експерти. Загальна кількість параметрів DiffusionGemma становить 26 мільярдів (26B), а під час висновку активується лише 3,8 мільярда (3.8B). Це дозволяє запускати її на високопродуктивних відеокартах з 18 ГБ VRAM, особливо у кількісному режимі.
Процес генерації більш детально. Стандартна автогенного модель — це лінійна виробнича лінія: перший токен згенерувався — тоді починається обчислення другого, і так далі.
DiffusionGemma ж спочатку заповнює всю область вихідних токенів заповнювачами, а потім виконує кілька раундів «очищення», під час яких усі позиції оновлюються одночасно, взаємно коригуючи свої оцінки, доки весь блок не стабілізується у фінальний результат. Максимальна кількість одночасно оброблюваних токенів — 256.
Цей дизайн має особливе значення для «нелінійних завдань». Приклад, який наводить Google — розв’язання судоку: традиційна автогенного модель показує посередні результати, оскільки правильне заповнення однієї клітинки часто залежить від інших, ще не визначених, клітинок, а автогенного підходу рухається послідовно і не може повернути назад. DiffusionGemma здатна постійно коригувати весь набір токенів, що теоретично дає перевагу у завданнях з складною логічною залежністю.
Інші застосовні сценарії, згадані офіційно, включають: редагування в реальному часі, генерацію молекулярних послідовностей, математичне малювання.
Звідки береться перевага швидкості
З точки зору апаратного забезпечення, швидкість висновку автогенної моделі обмежена «пропускною здатністю пам’яті»: кожен токен вимагає зчитування ваг з пам’яті, і швидкість передачі даних є вузьким місцем. У випадку з моделями розсіювання — інша проблема: це «обчислювальна інтенсивність», тобто багато обчислень за раз, але кожен токен читається з пам’яті набагато менше разів.
Це перенесення вузького місця має практичне економічне значення. Сучасні GPU зазвичай мають набагато більшу обчислювальну потужність, ніж пропускну здатність пам’яті. Тому генерація за автогенною моделлю — це фактично витрачання дорогої обчислювальної потужності на очікування даних з пам’яті, що тривалий час залишає GPU у напівпроста.
Розсіювальна генерація розподіляє обсяг роботи на багато паралельних обчислень, що дозволяє максимально використовувати обчислювальні ресурси GPU. Для застосувань, що вимагають довгого часу та великих пакетів обробки, ця «ефективність використання апаратури» іноді важливіша за чисту швидкість.
Ця різниця проявляється у реальній швидкості на сучасних GPU. Офіційні тести Google показують: на споживчому Nvidia RTX 5090 DiffusionGemma генерує близько 700 токенів за секунду; на серверному Nvidia H100 — понад 1000 токенів за секунду. За оцінками Google, це приблизно у 4 рази швидше за стандартну Gemma 4 того ж розміру.
Звертаємо увагу, що ці цифри взяті з офіційних тестів Google і не є незалежною перевіркою. В реальних сценаріях і при різній довжині генерації швидкість може коливатися.
Ціна за швидкість: якість у всіх бенчмарках поступається
Однак у всіх оприлюднених публічних бенчмарках DiffusionGemma показує результати нижчі за стандартний Gemma 4. Іншими словами, 4-кратна швидкість досягається ціною систематичного зниження якості генерації.
Це компроміс має різне значення залежно від сценарію застосування. Якщо важливо кожної секунди отримати багато результатів, наприклад, для масової обробки, запуску на периферійних пристроях або застосувань з високою чутливістю до затримки, переваги DiffusionGemma очевидні. Якщо ж пріоритет — якість відповіді, стандартна Gemma 4 залишається більш надійним вибором.
Для локальних AI-спільнот цей модельний підхід ілюструє конкретний вибір: скільки якості ви готові втратити заради швидкості на обмеженому локальному обладнанні? Це питання тепер має конкретний реальний приклад для експериментів. Ліцензія Apache 2.0 дозволяє будь-якому розробнику доопрацьовувати і досліджувати цю модель, а потенціал розсіювального мовного генератора тепер залежить від активності спільноти.