Google DeepMind lança o modelo de código aberto Gemma 4, família de modelos multimodais

robot
Geração de resumo em curso

ME News Notícias, 3 de abril (UTC+8), a Google DeepMind recentemente open-soube a família de modelos multimodais Gemma 4. Esta série de modelos suporta entrada de texto e imagem (modelos menores também suportam áudio), gerando saída de texto, incluindo variantes pré-treinadas e ajustadas por instruções, com uma janela de contexto de até 256K tokens, e suporta mais de 140 idiomas. Os modelos utilizam arquiteturas densas (Dense) e de especialistas mistos (MoE), com quatro tamanhos: E2B, E4B, 26B A4B e 31B. Suas capacidades principais incluem inferência de alto desempenho, processamento multimodal escalável, otimização para dispositivos, aumento da janela de contexto, aprimoramento de codificação e capacidades de agentes inteligentes, além de suporte nativo a prompts do sistema. Em detalhes técnicos, os modelos usam mecanismo de atenção híbrido, com camadas globais utilizando chaves e valores unificados e RoPE proporcional (p-RoPE). Entre eles, os modelos E2B e E4B usam tecnologia de incorporação camada a camada (PLE), com menos parâmetros efetivos do que o total. O modelo MoE 26B A4B ativa apenas 3,8B de parâmetros durante a inferência, com velocidade de execução próxima ao modelo de 4B parâmetros. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar