Google DeepMind открыла исходный код семейства мультимодальных моделей Gemma 4

robot
Генерация тезисов в процессе

МЕ Новости, 3 апреля (UTC+8), Google DeepMind недавно выпустила открытый исходный код семейства мультимодальных моделей Gemma 4. Эта серия моделей поддерживает ввод текста и изображений (малые модели также поддерживают аудио), генерирует текстовые выходы, включает варианты предварительного обучения и настройки по инструкциям, максимальный размер контекстного окна достигает 256K токенов, и поддерживает более 140 языков. Модели используют две архитектуры: плотную (Dense) и гибридных экспертов (MoE), всего четыре размера: E2B, E4B, 26B A4B и 31B. Их основные возможности включают высокопроизводительный вывод, расширенную мультимодальную обработку, оптимизацию на устройстве, увеличение окна контекста, улучшенные кодировочные и интеллектуальные способности, а также нативную поддержку системных подсказок. В технических деталях модели используют гибридный механизм внимания, глобальные слои применяют унифицированные ключи и значения, а также пропорциональный RoPE (p-RoPE). В частности, модели E2B и E4B используют технологию вложений по слоям (PLE), что позволяет иметь эффективное число параметров, меньшее общего количества. В то время как модель MoE 26B A4B при выводе активирует только 3.8B параметров, скорость работы приближается к модели с 4B параметрами. (Источник: InFoQ)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить