Google DeepMind відкриває сімейство мультимодальних моделей Gemma 4

robot
Генерація анотацій у процесі

ME Новини повідомляють, 3 квітня (UTC+8), що Google DeepMind нещодавно відкрила код для сімейства мультимодальних моделей Gemma 4. Це серія моделей, яка підтримує текстовий та зображувальний ввід (малі моделі також підтримують аудіо), генерує текстовий вихід, включає попередньо навчені та моделі з інструкційним налаштуванням, максимальний контекстний вікно до 256K токенів, а також підтримує понад 140 мов. Моделі використовують дві архітектури: щільну (Dense) та гібридних експертів (MoE), мають чотири розміри: E2B, E4B, 26B A4B та 31B. Їх основні можливості включають високопродуктивне виведення, масштабовану мультимодальну обробку, оптимізацію для пристроїв, збільшення контекстного вікна, покращене кодування та можливості агентів, а також нативну підтримку системних підказок. У технічних деталях моделі використовують гібридний механізм уваги, глобальні шари застосовують уніфіковані ключі та значення, а також пропорційний RoPE (p-RoPE). Зокрема, моделі E2B та E4B використовують технологію поетапного вбудовування (PLE), що зменшує кількість ефективних параметрів порівняно з загальною кількістю параметрів. Модель MoE 26B A4B під час виведення активує лише 3.8B параметрів, що забезпечує швидкість роботи, близьку до моделі з 4B параметрами. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити