GPT-5 arrive-t-il ? OpenAI s'est révélé avoir accéléré la formation du grand modèle multimodal Gobi, tuant Google Gimini d'un seul coup !

**Source :**Xinzhiyuan

Introduction : Sur le champ de bataille des grands modèles multimodaux, certains en ont déjà eu vent. Selon les médias étrangers, le nouveau modèle multimodal d’OpenAI, Gobi, semble être en préparation. La confrontation entre Google et OpenAI semble imminente.

Source de l’image : générée par Unbounded AI

À l’approche de l’automne, la bataille du modèle multimodal entre Google et OpenAI est également entrée dans une phase acharnée.

La semaine dernière, Google a ouvert les capacités de son grand modèle multimodal Gemini à certaines sociétés extérieures.

Et OpenAI, bien sûr, ne restera pas immobile à attendre la mort. Ils courent contre la montre pour intégrer des fonctions multimodales dans GPT-4, s’efforçant de lancer un grand modèle multimodal avec des fonctions similaires à Gemini et de tuer Google d’un seul coup.

La légendaire fonction multimodale a été démontrée lors de la conférence GPT-4 d’OpenAI qui a choqué le monde en mars de cette année——

Dessinez un croquis sur papier, prenez une photo et envoyez-la à GPT-4, et dites « Créez-moi un site Web avec cette mise en page », et il écrira immédiatement le code de la page Web.

Le patron Greg Brockman a personnellement manifesté en ligne

Mais ensuite, la multimodalité a semblé être un feu de paille, et personne n’a jamais vu de fonction physique produite.

Alors, la guerre multimodale entre Google et OpenAI est-elle enfin là ?

En concurrence avec Google, OpenAI s’empresse de publier de grands modèles multimodaux

Face aux rumeurs selon lesquelles Google serait sur le point de tuer ce grand tueur, OpenAI ne restera certainement pas indifférent.

Selon le média étranger The Information, un nouveau grand modèle multimodal appelé Gobi est déjà en préparation intensive.

OpenAI prévoit de lancer un LLM multimodal avant la sortie de Gemini, battant complètement Google.

Greg Brockman d’OpenAI contre Demis Hassabis de Google

En fait, après avoir lancé un aperçu de la fonctionnalité multimodale GPT-4 en mars, OpenAI a lancé cette fonctionnalité à une société appelée Be My Eyes, mais ne l’a pas fournie à d’autres sociétés.

Comme son nom l’indique, cette entreprise développe une technologie qui permet aux personnes aveugles ou malvoyantes de voir plus clairement.

Récemment, OpenAI prévoit de déployer plus largement une fonctionnalité appelée GPT-Vision.

Pourquoi OpenAI a-t-il pris autant de temps ?

La raison principale est qu’ils craignent que les nouvelles fonctions visuelles soient utilisées par des criminels, comme se faire passer pour des humains en déchiffrant automatiquement les codes de vérification, ou suivre des humains grâce à la reconnaissance faciale.

Cependant, les ingénieurs d’OpenAI semblent avoir résolu ces risques de sécurité juridique.

De même, un porte-parole de Google a également déclaré : Google a pris certaines mesures pour empêcher les abus de Gemini.

Dans un engagement pris en juillet, Google s’est engagé à développer une intelligence artificielle responsable dans tous ses produits.

**Gobi peut-il devenir GPT-5 ? **

Après GPT-Vision, OpenAI lancera probablement un grand modèle multimodal plus puissant, nommé Gobi.

Contrairement à GPT-4, Gobi est construit dès le départ sur un modèle multimodal.

Alors, Gobi est-il le légendaire GPT-5 ?

Pour le moment, nous ne le savons pas. Il n’y a pas d’informations précises sur le chemin parcouru par Gobi en formation.

Début septembre, Mustafa Suleyman, co-fondateur de DeepMind et aujourd’hui PDG d’Inflection AI, a lancé une bombe dans une interview : selon ses spéculations, OpenAI entraînait secrètement GPT-5.

Suleyman pense que Sam Altman ne dit peut-être pas la vérité lorsqu’il a récemment déclaré qu’ils n’avaient pas entraîné GPT-5. (Les mots originaux sont : Allez. Je ne sais pas. Je pense qu’il vaut mieux que nous soyons tous honnêtes à ce sujet.)

Ici, selon les personnes ayant essayé le Gemini, le Gemini produira moins d’hallucinations que les modèles existants. Les raisons sont détaillées ci-dessous.

En bref, la guerre des modèles multimodaux entre Google et OpenAI peut être considérée comme la version IA de la confrontation iPhone et Android.

L’un est un géant de la Silicon Valley qui domine le domaine de l’IA depuis de nombreuses années, et l’autre est une start-up d’IA de premier ordre qui n’a pas d’égal sous les feux de la rampe. attendre en retenant son souffle.

### Google teste secrètement Gemini

D’un autre côté, Google a également commencé à inviter certains développeurs externes pour accélérer les tests du prochain grand modèle multimodal de nouvelle génération Gemini.

La semaine dernière, The Information a rapporté en exclusivité que Gemini pourrait bientôt être prêt pour une version bêta et intégré à des services comme Google Cloud Vertex AI.

Lors de la conférence des développeurs Google I/O de cette année, Pichai a présenté publiquement Gemini, qui est un modèle multimodal, un outil d’intégration efficace et une API.

Afin de travailler ensemble pour réaliser de grandes choses, Google a également fusionné Google Brain avec DeepMind Labs.

On dit qu’au moins plus de 20 dirigeants ont participé à la recherche et au développement de Gemini, dirigés par Demis Hassabis, le fondateur de DeepMind, et Sergey Brin, le fondateur de Google, ont participé à la recherche et au développement.

Il y a également des centaines d’employés chez Google DeepMind, dont l’ancien directeur de Google Brain Jeff Dean et d’autres.

Une personne qui l’a testé a déclaré que Gemini avait un avantage sur GPT-4 sur au moins un point : en plus des informations accessibles au public sur le Web, le modèle exploite également une grande quantité de données propriétaires provenant des produits grand public de Google (recherche, YouTube). .

Par conséquent, Gemini devrait être particulièrement précis pour comprendre l’intention d’un utilisateur pour une requête spécifique, et il semble produire moins de réponses incorrectes, c’est-à-dire des hallucinations.

Selon des rapports précédents des analystes de SemiAnalysis, le grand modèle Gemini de nouvelle génération de Google a commencé à s’entraîner sur le nouveau pod TPUv5, avec une puissance de calcul allant jusqu’à ~ 1e26 FLOPS, soit 5 fois supérieure à la puissance de calcul de l’entraînement GPT-4.

De plus, la base de données de formation de Gemini contient 93,6 milliards de minutes de sous-titres vidéo sur Youtube, et la taille totale de l’ensemble de données est environ deux fois supérieure à celle de GPT-4.

On dit que le grand modèle de nouvelle génération de Google est également composé de plusieurs échelles et pourrait utiliser l’architecture MoE et la technologie d’échantillonnage spéculatif.

Le jeton est généré à l’avance par le petit modèle et transmis au grand modèle pour évaluation afin d’améliorer la vitesse de raisonnement globale du modèle.

Hassabis, directeur de Google DeepMind, a déclaré dans une interview que Gemini devrait coûter des dizaines à des centaines de millions de dollars, ce qui équivaut au coût de développement de GPT-4.

Gemini intégrera la technologie utilisée dans AlphaGo, ce qui donnera au système de nouvelles capacités de planification et de résolution de problèmes.

On peut dire que Gemini combine certains des avantages du système AlphaGo avec les étonnantes capacités linguistiques des grands modèles linguistiques. Et nous avons d’autres innovations intéressantes.

La technologie derrière AlphaGo est l’apprentissage par renforcement, une technologie lancée par DeepMind.

Les agents RL interagissent avec l’environnement au fil du temps, apprenant les politiques par essais et erreurs, maximisant ainsi les récompenses cumulatives à long terme.

Grâce à l’apprentissage par renforcement, l’IA peut ajuster ses performances par essais et erreurs et recevoir des commentaires, apprenant ainsi à gérer des problèmes difficiles, tels que choisir la prochaine étape dans Go ou dans les jeux vidéo.

De plus, AlphaGo utilise également la méthode Monte Carlo Tree Search (MCTS) pour explorer et mémoriser tous les mouvements possibles sur le plateau.

Par rapport aux modèles existants, Gemini améliorera considérablement les capacités de génération de code des développeurs de logiciels, et Google espère l’utiliser pour rattraper l’assistant de code GitHub Copilot de Microsoft.

Google a également envisagé d’utiliser Gemini pour mettre en œuvre des fonctions telles que l’analyse de graphiques, par exemple en demandant au modèle d’interpréter la signification des graphiques complétés et en utilisant des commandes textuelles ou vocales pour parcourir les navigateurs Web ou d’autres logiciels.

Google Cloud Vertex AI, la plate-forme de développement Google Cloud, sera également prise en charge par Gemini, avec des versions grandes et petites disponibles, afin que les développeurs puissent payer pour acheter de petits modèles à exécuter sur des appareils personnels.

Désormais, Google se prépare pleinement à la guerre, en attendant que Gemini lance sa contre-attaque.

gpt-3.5-turbo-instruct publié

En juillet, OpenAI a annoncé que l’API GPT-4 était entièrement disponible et lancerait de nouveaux modèles dans les prochains mois.

Non, aujourd’hui encore, les internautes ont reçu des e-mails annonçant le nouveau modèle de gpt-3.5-turbo-instruct pour remplacer l’ancien modèle text-davinci-003.

Selon les rapports, gpt-3.5-turbo-instruct est un modèle de style InstructGPT et sa méthode de formation est similaire à text-davinci-003.

La méthode d’utilisation est similaire à la précédente -Completion, en complétant selon les instructions du mot d’invite.

En termes de prix, le gpt-3.5-turbo 4K reste cohérent.

Certains internautes ont commencé à utiliser le dernier modèle pour jouer aux échecs avec environ 1 800 Elo.

Il avait précédemment découvert que GPT ne pouvait pas du tout faire cela, mais il semble maintenant que ce ne soit qu’un problème avec le modèle de discussion RLHF, et le modèle d’achèvement pur réussit.

Dans le jeu, gpt-3.5-turbo-instruct a facilement vaincu Stockfish niveau 4 (1700 points) et n’a toujours pas pris de retard au niveau 5 (2000 points).

Il ne fait jamais de mouvement illégal, utilise des sacrifices d’ouverture intelligents et d’incroyables échecs et mats de pions et de rois, permettant à ses adversaires d’avancer sans aucune signification réelle.

Les internautes utilisent les invites de style PGN suivantes pour simuler le jeu principal. La mise en évidence est un peu fausse. GPT effectue ses propres mouvements et il saisit manuellement les mouvements de Stockfish.

À propos, les inscriptions ont commencé pour la première conférence des développeurs d’OpenAI qui se tiendra en novembre, alors dépêchez-vous et postulez.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler