Microsoft e Google lançam novos modelos de IA no mesmo dia: capacidades de voz, imagem e código aberto localmente em ação

robot
Geração de resumo em curso

A Microsoft e a Google anunciaram na quinta-feira que vão lançar novos modelos de IA, mas as diferenças são evidentes: o que a Microsoft lançou foi um novo modelo base, o MAI, disponibilizado apenas através do seu Azure Foundry e numa plataforma chamada MAI Playground, limitada aos EUA; enquanto a Google lançou um novo modelo open source, o Gemma 4, que pode ser executado localmente. Além disso, a Google alterou o acordo de licenciamento destes novos modelos open source para o Apache 2.0.

Três modelos MAI “de nível mundial” desenvolvidos internamente

Os três modelos MAI “de nível mundial” desenvolvidos internamente pela Microsoft são:

Em primeiro lugar, o MAI-Transcribe-1, um modelo de conversão de voz em texto “de ponta”, capaz de compreender 25 línguas, entre as mais utilizadas no mundo. A velocidade de transcrição em lote é 2,5 vezes superior à da solução Azure Fast existente da Microsoft.

Em segundo lugar, o MAI-Voice-1, um novo modelo de geração de voz, que gera áudio com duração de 60 segundos apenas em 1 segundo. Além disso, também suporta a criação de vozes personalizadas no Microsoft Foundry através de amostras de áudio curtas.

Por fim, o MAI-Image-2, um modelo de geração de imagens a partir de texto mais rápido, que já começou a ser disponibilizado no Copilot e, a seguir, será aplicado gradualmente no Bing e no PowerPoint.

A Microsoft afirma:

“Estamos a implementar rapidamente estes modelos de topo para apoiar os nossos produtos para consumidores e empresariais. Em breve, verás mais modelos no Foundry e em vários produtos e experiências da Microsoft.”

O modelo open source Gemma 4 da Google

O modelo open source Gemma 4 da Google é baseado na licença Apache 2.0, em vez de utilizar o anterior acordo de licenciamento personalizado do Gemma. A Google afirma que estes modelos possuem capacidades avançadas de raciocínio, fluxos de trabalho orientados por agentes, geração de código e capacidades de geração de visual e de áudio, e disponibilizam quatro versões diferentes, optimizadas para execução local, podendo mesmo ser executados em “dezenas de milhares de milhões de dispositivos Android”.

A Google afirma:

“O Gemma 4 assenta nos mesmos trabalhos de investigação e na mesma tecnologia de nível mundial que o Gemini 3, sendo a série de modelos com maior capacidade que pode executar no seu hardware local. Eles complementam os nossos modelos Gemini, oferecendo aos programadores a combinação de ferramentas open source e proprietárias mais forte do sector.”

Entre estas, os modelos Gemma 4 nas versões maiores de 26B e 31B destinam-se a ser executados em GPUs de consumo e podem ser usados para impulsionar IDEs, assistentes de programação e fluxos de trabalho orientados por agentes. Já as versões mais leves E2B e E4B dão maior prioridade às capacidades multimodais e ao processamento com baixa latência, sendo adequadas para dispositivos móveis e dispositivos IoT (incluindo Raspberry Pi). Estes modelos também suportam execução totalmente offline.

O modelo open source Gemma 4 da Google pode ser descarregado em várias plataformas, incluindo Hugging Face, Kaggle e Ollama. A Google sublinha:

“Estes modelos seguem, no que toca à segurança da infra-estrutura, os mesmos rigorosos protocolos de segurança que os nossos modelos proprietários.”

Mais notícias, em actualização contínua

Aviso de risco e cláusulas de isenção de responsabilidade

        Há risco no mercado; ao investir, é preciso prudência. Este artigo não constitui aconselhamento de investimento pessoal, nem considera objectivos de investimento específicos, situação financeira ou necessidades de utilizadores individuais. Os utilizadores devem ponderar se quaisquer opiniões, pontos de vista ou conclusões neste artigo se alinham com a sua situação específica. Assim sendo, ao investir com base no que foi referido, a responsabilidade é do próprio investidor.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar