Microsoft et Google annoncent le même jour de nouveaux modèles d'IA : des capacités combinées de reconnaissance vocale, d'imagerie et de fonctionnalités open source locales.

robot
Création du résumé en cours

Microsoft et Google ont tous deux annoncé jeudi le lancement de nouveaux modèles d’IA, mais les différences sont nettes : Microsoft déploie un nouveau modèle de base, MAI, qui n’est disponible que via son environnement Azure Foundry et la plateforme MAI Playground, réservée aux États-Unis ; tandis que Google lance un tout nouveau modèle open source, Gemma 4, qui peut être exécuté en local. En outre, Google a modifié la licence de ces nouveaux modèles open source pour passer à Apache 2.0.

Trois modèles MAI « de niveau mondial » développés en interne

Les trois modèles MAI « de niveau mondial » développés en interne par Microsoft comprennent :

Tout d’abord, MAI-Transcribe-1, un modèle « à la pointe » de transcription de la voix vers du texte, capable de comprendre 25 des langues les plus largement utilisées dans le monde. Son taux de transcription par lots est supérieur de 2,5 fois à celui de la solution Azure Fast existante de Microsoft.

Ensuite, MAI-Voice-1, un nouveau modèle de génération de voix : il suffit de 1 seconde pour générer 60 secondes d’audio. De plus, il prend en charge la création de voix personnalisées dans Microsoft Foundry à partir d’exemples de courts enregistrements audio.

Enfin, MAI-Image-2, un modèle texte-image plus rapide. Il est déjà commencé à être déployé dans Copilot, et sera ensuite progressivement appliqué à Bing et à PowerPoint.

Microsoft indique :

« Nous déployons rapidement ces modèles de tout premier plan pour soutenir nos produits grand public et professionnels. Très bientôt, vous verrez davantage de modèles dans Foundry ainsi que dans nos différents produits et expériences. »

Le modèle open source Gemma 4 de Google

Le modèle open source Gemma 4 de Google est distribué sous licence Apache 2.0, plutôt que d’utiliser la licence Gemma personnalisée en vigueur auparavant. Google affirme que ces modèles disposent de capacités avancées de raisonnement, de flux de travail de type agent, de génération de code, ainsi que de capacités de génération visuelle et audio, et qu’ils sont proposés en quatre versions différentes, optimisées pour l’exécution en local, et même capables de tourner sur « des milliards d’appareils Android ».

Google indique :

« Gemma 4 s’appuie sur la recherche et la technologie de niveau mondial qui sont les mêmes que celles utilisées pour Gemini 3, et représente actuellement la série de modèles la plus puissante que vous puissiez exécuter localement sur du matériel. Ils complètent nos modèles Gemini et offrent aux développeurs une combinaison d’outils open source et propriétaires parmi les plus puissants du secteur. »

Parmi eux, les versions Gemma 4 les plus importantes, 26B et 31B, visent à fonctionner sur des GPU grand public et peuvent être utilisées pour alimenter des IDE, des assistants de programmation et des flux de travail de type agent. En revanche, les versions plus légères E2B et E4B mettent davantage l’accent sur les capacités multimodales et le traitement à faible latence, adaptés aux appareils mobiles et aux appareils de l’Internet des objets (y compris le Raspberry Pi). Ces modèles prennent aussi en charge l’exécution entièrement hors ligne.

Les modèles open source Gemma 4 de Google peuvent être téléchargés sur plusieurs plateformes, notamment Hugging Face, Kaggle et Ollama. Google souligne :

« En matière de sécurité des infrastructures, ces modèles suivent les mêmes protocoles de sécurité stricts que nos modèles propriétaires. »

Plus d’informations, mises à jour en continu

Avertissement relatif aux risques et clause de non-responsabilité

        Le marché comporte des risques ; investissez avec prudence. Le présent article ne constitue pas un conseil en investissement à destination des particuliers, et ne tient pas compte des objectifs d’investissement particuliers, de la situation financière ou des besoins spécifiques de certains utilisateurs. Les utilisateurs doivent examiner si les opinions, points de vue ou conclusions contenus dans cet article correspondent à leur situation particulière. En conséquence, l’investissement se fait sous votre propre responsabilité.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler