Google DeepMind открыла исходный код семейства мультимодальных моделей Gemma 4

robot
Генерация тезисов в процессе

МЕ Новости, 3 апреля (UTC+8), Google DeepMind недавно выпустила открытый исходный код семейства мультимодальных моделей Gemma 4. Эта серия моделей поддерживает ввод текста и изображений (малые модели также поддерживают аудио), генерирует текстовые выходы, включает варианты предварительного обучения и настройки по инструкциям, максимальный размер контекстного окна достигает 256K токенов, а также поддерживает более 140 языков. Модели используют две архитектуры: плотную (Dense) и гибридных экспертов (MoE), всего четыре размера: E2B, E4B, 26B A4B и 31B. Основные возможности включают высокопроизводительный вывод, расширенную мультимодальную обработку, оптимизацию на устройстве, увеличение окна контекста, улучшенные кодировочные и агентские способности, а также нативную поддержку системных подсказок. В технических деталях модели используют гибридный механизм внимания, глобальные слои применяют унифицированные ключи и значения, а также пропорциональный RoPE (p-RoPE). В частности, модели E2B и E4B используют технологию вложений по слоям (PLE), что позволяет иметь эффективное число параметров, меньшее общего количества. Модель MoE 26B A4B при выводе активирует только 3,8B параметров, что обеспечивает скорость работы, близкую к модели с 4B параметрами. (Источник: InFoQ)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить