Comment a été créé le grand modèle Qingliu Cohere ?

Source : Shidao

Source de l'image : générée par Unbounded AI

Résumé du contenu de ce numéro :

1 garçon de 20 ans a participé à des articles importants qui ont marqué le début de l'ère de l'IA générative 2 Un entrepreneur chinois qui aime jouer avec la technologie et un garçon talentueux ont fondé Cohere 3 Quels risques l'IA apportera-t-elle et quelles sont ses plus grandes opportunités à l'avenir ?

La concurrence mondiale dans le domaine des grands modèles de base se poursuit. OpenAI, qui a levé des dizaines de milliards de dollars, est sans aucun doute l'un des pionniers. Son application phare, ChatGPT, compte des centaines de millions d'utilisateurs actifs. Il est sans doute difficile de rivaliser de front avec lui.

Une licorne IA évaluée à 2 milliards de dollars a trouvé une voie différenciée dans la concurrence des grands modèles de base, devenant une bouffée d'air frais dans la mêlée de l'entrepreneuriat des grands modèles.

Cette licorne s'appelle Cohere, qui a été cofondée par Aidan Gomez, le plus jeune auteur de l'article révolutionnaire « Attention is All You Need », et deux de ses anciens élèves de l'Université de Toronto, Ivan Zhang et Nick Frosst.

Cohere a récemment reçu 270 millions de dollars américains en financement de série C, portant le montant cumulé du financement à plus de 430 millions de dollars américains et une valorisation de plus de 2,1 milliards de dollars américains. Sa liste d'investisseurs comprend des géants de l'entreprise tels que Salesforce, NVIDIA et Oracle, des institutions d'investissement de premier plan telles que Tiger Global et Index Ventures, ainsi que des experts bien connus en IA tels que Geoffrey Hinton (les trois géants du deep learning et lauréat du prix Turing). Prix) et Li Feifei. Ses partenaires incluent également Amazon, McKinsey, etc.

Pourquoi Cohere est-il une bouffée d’air frais dans la mêlée de l’entrepreneuriat de grande envergure ?

En termes de produits, il se concentre sur le service aux clients au niveau de l'entreprise. Basé sur le puissant grand modèle Command, il fournit un traitement de texte au niveau de l'entreprise, des questions et réponses sur les connaissances et d'autres fonctions, et le modèle peut être affiné et personnalisé. En outre, elle a lancé Coral, un assistant de connaissances au niveau de l'entreprise.

En termes de sécurité, afin de dissiper les doutes des entreprises clientes, ses produits peuvent être déployés en multi-cloud et sur site, et offrent un haut degré de confidentialité des données.

En termes de stratégie de financement, il préfère prendre de l'argent auprès des grandes entreprises liées à sa propre chaîne industrielle et utiliser le pouvoir des géants pour se développer, mais il n'est pas lié aux géants (voir la relation entre OpenAI et Microsoft).

En tant que licorne bien connue de l'IA, les produits et les avantages concurrentiels de l'entreprise Cohere ont été étudiés en profondeur. Nous avons essayé de les aborder du point de vue des entrepreneurs, en utilisant plusieurs entretiens avec les deux fondateurs de Cohere, Aidan Gomez et Ivan Zhang, pour démêler l'histoire de Cohere. Le processus de développement de 0 à 1, ainsi que les nombreuses réflexions des deux entrepreneurs Aidan et Ivan sur les entreprises et l'IA.

*Remarque : le contenu de cet article provient de conversations entre l'investisseur de Cohere et le partenaire de Madrona, Jon Turow, le fondateur de Weights&Bias, Lukas Biewald, le célèbre journaliste Steven Marsh et les deux cofondateurs de Cohere, Aidan Gomez et Ivan Zhang. *

Le jeune homme de 20 ans a participé à un article important qui a marqué le début de l'ère de l'IA générative

Aidan Gomez est le plus jeune auteur de l'article fondateur « Attention is All You Need » dans le domaine des grands modèles de langage. À cette époque, il est allé faire un stage à Google Brain de l'Université de Toronto. Il avait encore environ 19 ou 20 ans en tant qu'étudiant de premier cycle. C'était sa première expérience dans le monde technologique américain.

Aidan Gomez à l'Université de Toronto

Son mentor de stage chez Google était Lukasz Kaiser, l'un des principaux auteurs de « Attention is All You Need ». À cette époque, ils ont construit conjointement Tensor, une plate-forme logicielle pour la formation de grands réseaux de neurones, et ils formaient également un modèle d'IA. L'idée est de former un énorme modèle d'IA capable d'apprendre de nombreuses choses à partir d'un ensemble de données. La formation nécessite l'utilisation d'ensembles de données dans plusieurs modalités, notamment des images, du texte et même des vidéos.

A cette époque, Aidan et Noam Shazeer (également l'auteur de l'article Transformer) étaient des « étudiants ». Noam étudiait également de grands modèles de langage, mais l'algorithme qu'il étudiait était RNN (Recurrent Neural Network). L'objectif de Noam est de trouver une nouvelle architecture plus simple, plus raffinée et plus évolutive que RNN.

Lukasz, Aidan et Noam se sont donc entendus et ont prévu de faire cette recherche ensemble. Ils ont ensuite découvert que Niki Parmar, Jakob Uszkoreit et Ashish Vaswani du groupe de traduction de Google Brain avaient des idées similaires. Après la fusion des deux groupes, tout le monde a travaillé ensemble. Après des recherches approfondies, la pièce finale "Attention is All You Need" est née.

Le document a été soumis tôt le matin, alors qu'il n'y avait que deux personnes dans le bureau, Aidan et Ashish. Une fois le manuscrit soumis, ils étaient plongés dans l’enthousiasme. Ashish a prévu que cet article pourrait avoir un impact énorme, mais le jeune Aidan soumet pour la première fois un article important et n'en connaît pas encore l'importance. Comme il l'a déclaré dans une interview avec le chroniqueur du New Yorker Steven Marsh : "Je ne pense pas que quiconque prévoie ce que cela deviendra dans le futur."

Il a été vraiment choqué par l'impact pratique du modèle Transformer après son retour à l'Université de Toronto après son stage.

"À l'époque, je faisais des recherches d'été à l'Université de Toronto, puis j'ai reçu un e-mail de Lukasz avec pour objet "Regardez ça". Le contenu de l'e-mail était l'histoire d'un groupe de punk rock japonais. L'histoire a enregistré comment ils ont formé un groupe et comment ils ont sorti un album. Puis il a regretté le processus de dissolution. À la fin de l'e-mail, Lukasz a écrit : "Le seul mot que j'ai entré était transformateur, et le modèle a généré automatiquement l'histoire."

Après avoir lu ce texte généré automatiquement, je pense que cela va déclencher une révolution de produit. Parce que pour la première fois, un système non humain utilise le langage d’une manière aussi convaincante que nous, les humains. "Aidan a dit à Steven Marsh.

Arbre évolutif grand modèle

Lorsque « Attention is All You Need » et Transformer sont nés, ce modèle innovant a été rapidement adopté par la communauté IA et est devenu un nouveau standard technique. Il a déclenché un engouement parmi les chercheurs en IA, et des modèles puissants basés sur Transformer voient constamment le jour, comme BERT et GPT. Fin 2022, ChatGPT a officiellement lancé le boom de l’IA générative.

Un entrepreneur chinois qui aime jouer avec la technologie et un garçon talentueux ont fondé Cohere

Ivan Zhang, co-fondateur de Cohere, est un chercheur en IA atypique, mais un entrepreneur typique. Lui et Aidan sont d'anciens élèves de l'Université de Toronto et ont ensuite abandonné leurs études pour démarrer une entreprise avec Aidan. "Je suis un créateur. Je n'aime pas m'asseoir dans une salle de classe et simplement absorber beaucoup d'informations. Je dois le faire moi-même et apprendre en "jouant avec la technologie". C'est la meilleure façon pour moi d'apprendre." C'est ainsi qu'il a investi dans Cohere que Jon Turow se présente.

Ivan Zhang, co-fondateur de Cohere

Du chercheur à l'entrepreneur, de la ToC à la ToB

En 2017, après avoir abandonné ses études à l'Université de Toronto, Ivan travaille comme ingénieur back-end dans une startup et c'est à cette époque qu'il rencontre Aidan Gomez. À cette époque, Aidan souhaitait créer un groupe de recherche indépendant sur l'IA pour mener des recherches sur l'IA axées sur ses intérêts et vérifier ses idées innovantes. Ils ont donc lancé FOR.ai ensemble. Cette organisation, toujours en activité, appelée Cohere For AI, est composée d'un certain nombre de chercheurs scientifiques dans le domaine de l'IA et mène principalement des recherches fondamentales sur l'IA.

En 2019, Ivan a proposé à Aidan : « Pourquoi ne faisons-nous pas quelque chose de nouveau ensemble ? » Ils sont donc devenus indépendants de FOR.ai et ont lancé une entreprise plus formelle. À ce stade, ils ont déjà une expérience entrepreneuriale, comprennent la bonne façon de gérer une organisation et ont rencontré de nombreux fondateurs dans le domaine de l'IA.

Au début de Cohere, leur première idée était de créer une plate-forme de base d'IA qui permettrait aux développeurs de télécharger des modèles d'IA, puis la plate-forme compresserait la taille du modèle pour le rendre plus efficace. Mais à cette époque, l’engouement pour l’IA générative n’était pas encore arrivé et le marché était encore trop petit.

En tant qu'auteur de l'article, Aidan a observé le développement en plein essor du modèle Transformer dans la communauté de l'IA, a constaté qu'il résolvait divers problèmes liés au traitement de texte et a vu les développeurs améliorer cette architecture. À cette époque, le GPT-2 d'OpenAI a été publié et les paramètres du modèle Transformer dépassaient le milliard, ce qui a également permis à Aidan de prendre davantage conscience de l'importance de l'échelle du modèle et du potentiel réel de cette architecture de modèle.

En conséquence, plusieurs fondateurs ont transformé Cohere d'une plate-forme de compression de modèles en grands modèles et services de base.

"Après avoir expérimenté GPT-2, nous avons trouvé que c'était très cool, mais nous ne sommes pas sûrs des services qui peuvent être créés à l'aide de modèles d'IA de base tels que GPT. Nous avons d'abord essayé de créer le premier projet de Cohere, qui était un outil de complétion automatique de texte. se présente sous la forme d'une extension du navigateur Chrome. Les utilisateurs doivent simplement saisir un morceau de texte dans la zone de texte, et le texte peut continuer automatiquement. Nous avions initialement prévu d'utiliser la publicité pour gagner de l'argent. (Remarque : il s'agit d'une activité ToC. modèle). Mais nous avons évidemment sous-estimé la difficulté de construire un produit de consommation. L’expérience de ce produit n’est pas bonne et il n’a pas gagné beaucoup d’utilisateurs. Nous comprenons que nous n’avons aucun avantage concurrentiel dans cette direction.

Nous avons donc décidé de démonter l'interface front-end et de fournir uniquement les capacités du modèle back-end, en passant de la ToC à la ToB pour fournir des services API au niveau de l'entreprise. À cette époque, 99 % des cas d'utilisation de la PNL nécessitaient l'intégration de mots et l'ajustement du modèle. En quelques mois, nous avons donc construit une plate-forme API dotée de capacités de génération d'IA capables d'intégrer et d'affiner le modèle. « Ivan a partagé la réflexion derrière la transformation de Cohere avec Jon Turow.

Quant à la raison pour laquelle Cohere s'est tournée vers ToB et au cœur de la mission de l'entreprise, Aidan Gomez a fait une déclaration claire : « Nous voulons simplement que les grands modèles d'IA soient utilisés par plus de personnes. À cette époque, les développeurs et les entreprises voulaient profiter des capacités des grands modèles d'IA, quels qu'ils soient. Il existe de nombreux obstacles en termes de technologie et de puissance de calcul. Le sens de notre existence est de supprimer les obstacles qui empêchent les gens d'utiliser de grands modèles d'IA, afin que les développeurs qui ne sont pas familiers avec l'IA, ainsi que les entreprises ordinaires peuvent facilement utiliser les capacités de l'IA.

Parce que l’interaction conversationnelle propre à l’IA générative constitue la meilleure expérience pour les utilisateurs finaux. En me prenant comme exemple, lorsque je souhaite ouvrir un compte bancaire, si une banque peut disposer d'une application mobile capable d'interagir avec moi 24 heures sur 24 et de résoudre les problèmes efficacement, cela me sera beaucoup plus attractif.

Cohere est là pour faire exactement cela, en aidant tous les types d’entreprises et d’organisations à exploiter la puissance de l’IA générative pour améliorer leur avantage concurrentiel.

Cohere permet aux entreprises clientes d'affiner leurs modèles avec leurs propres données

Lorsque les entreprises adopteront les capacités de l’IA, elles se poseront également des questions sur deux sujets, à savoir l’hébergement des modèles et la confidentialité des données. Nous prenons en charge l'hébergement multi-cloud. Les entreprises peuvent choisir le service cloud qui leur convient ou le déployer sur un serveur local. Nous attachons également une grande importance à la confidentialité des données. Lorsque les entreprises utilisent leurs propres données pour affiner leur modèle, qu'elles soient déployées dans le cloud ou sur un serveur local, nous ne verrons pas leurs données. C'est l'une de nos principales fonctionnalités. "

Une stratégie de talents éclectique façonne la grande créativité de Cohere

La capacité de Cohere à pivoter rapidement et à trouver sa bonne position dès les premiers stades est indissociable des perspectives de talent et de la philosophie entrepreneuriale qu'Ivan et Aidan ont accumulées depuis FOR.ai. Ivan a partagé sa philosophie de recrutement de talents et sa culture entrepreneuriale en s'adressant à Jon Turow : « Notre méthode de recrutement est différente. Lorsque FOR.ai a démarré l'entreprise, nous avons établi un principe : nous recherchons des personnes d'horizons différents, mais quelqu'un qui est très intéressé par l’IA et souhaite avoir un impact énorme.

Vous n'avez pas besoin d'avoir une expérience parfaite dans Meta AI, DeepMind ou Google, mais vous devez avoir un intérêt et un enthousiasme très élevés pour le domaine sur lequel vous vous concentrez. Et vous pouvez non seulement rédiger des articles, mais aussi posséder des compétences pratiques. Nous avons apporté cette approche de recrutement à Cohere et avons constitué une équipe de démarrage très solide.

En termes de culture d'entreprise, nous aimons faire beaucoup d'exploration technologique, « jouer avec la technologie », puis réaliser des percées. Bien que nous écrivions tous des articles, nous ne sommes pas des « nerds ». Nous avons une idée très claire de ce que nous devrions faire et nous passons beaucoup de temps sur les pratiques d'ingénierie plutôt que sur la simple exploration d'algorithmes. Cela nous permet de créer des produits qui peut réellement apporter des avantages aux gens. "

Maintenant qu'OpenAI occupe la position C de l'IA générative, ChatGPT, qui compte déjà des centaines de millions d'utilisateurs actifs, aidera-t-il OpenAI à la monopoliser ? D'autres entreprises ont-elles encore des opportunités ? Aidan Gomez a sa propre opinion : « Je ne pense en aucun cas qu'il y aura un monopole dans le domaine des grands modèles. Je pense que chaque entreprise a son propre style, sa direction et ses propres avantages, et trouvera sa propre position sur le marché. Clients particuliers et entreprises Ils choisiront le meilleur partenaire, l'entreprise la plus fiable et la plateforme qui peut le mieux les aider à réussir.

Pour les entreprises modèles de base comme Cohere, l’état final auquel nous serons confrontés ne sera probablement pas une situation de gagnant-gagnant, mais une structure de marché diversifiée. Nous compterons sur nos propres avantages pour gagner nos propres matchs. Nous utiliserons diverses méthodes pour aider les clients afin qu'ils puissent utiliser les meilleures capacités d'IA. Notre objectif est de permettre au modèle d'IA d'aider des clients spécifiques à obtenir une valeur maximale grâce à diverses méthodes, notamment des invites et des réglages précis. "

Quels risques l’IA comporte-t-elle et quelles sont ses plus grandes opportunités à l’avenir ?

L’explosion de l’IA générative, bien que saluée, suscite également de nombreuses inquiétudes. Au niveau public, les gens s'inquiètent de savoir si l'IA ne se développera pas trop rapidement et ne sera pas trop puissante, ce qui « volerait » des opportunités d'emploi humain ; au niveau pratique, de nombreuses personnes s'inquiètent de la sécurité et de la contrôlabilité des modèles d'IA.

Aidan Gomez et Ivan Zhang ont également exprimé leurs opinions sur ce sujet.

L'IA peut « polluer » les réseaux sociaux

Le point de vue d’Aidan Gomez est plus social : il estime que la « pollution » des médias sociaux par les contenus générés par l’IA est digne d’inquiétude : « Au lieu de nous inquiéter de voir l’intelligence non humaine remplacer les humains, ce qui n’arrivera peut-être pas avant de nombreuses années, nous devrions payer. attention aux risques réels actuels.

Par exemple, il est très possible que l’IA puisse générer des millions de robots qui entrent de manière transparente dans nos réseaux sociaux et nos conversations publiques et qui défendent ensuite un certain point de vue (que ce point de vue soit utile ou nuisible). Cela pourrait avoir des conséquences imprévues sur certaines questions publiques pouvant avoir un impact significatif sur la société.

Nous devons donc peser les risques liés à cette affaire, et il est préférable d’avoir des politiques spécifiques pour atténuer ce risque. Par exemple, les gens ont le droit de savoir si le contenu médiatique ou marketing que nous lisons est créé par des humains ou synthétisé par des machines. "

Le point de vue d'Ivan Zhang est relativement réaliste. Il estime que l'IA est confrontée à deux défis majeurs : "Pour les défis auxquels est confrontée l'IA, les informations que nous obtenons des clients concernent avant tout la manière d'évaluer la capacité des modèles d'IA génératifs. Comparer avec précision deux modèles d'IA. La capacité n'est pas facile et, en termes de génération de texte, cette comparaison sera probablement subjective, ce qui créera certains obstacles à l'adoption commerciale de l'IA générative.

Un autre défi est celui de la confidentialité des données. Lorsque vous utilisez de grands modèles open source ou fermés à des fins commerciales, vous utilisez parfois des données sensibles, ce qui crée à son tour des problèmes de conformité. Par exemple, lorsque vous utilisez l’IA pour vous aider à rédiger un e-mail sensible, craigniez-vous que les données sensibles que vous saisissez dans le modèle soient utilisées de manière abusive ? Bien entendu, cette préoccupation devient une opportunité pour nous, et nous travaillons avec Oracle pour résoudre ce problème. "

L'intelligence incorporée est une grande opportunité pour l'IA à l'avenir

Aidan Gomez et Ivan Zhang sont tous deux experts en IA et entrepreneurs. Leurs points de vue sur les nouvelles orientations et opportunités de l'IA à l'avenir méritent également d'être pris en compte.

Tout d’abord, ils ont tous mentionné la même technologie à différentes occasions, à savoir l’intelligence incarnée, c’est-à-dire l’injection des capacités de l’IA générative dans des machines tangibles.

Aidan a déclaré à Lukas Biewald : "Je pense que c'est vraiment cool d'appliquer l'IA générative à la robotique et à la matérialisation, et il y a une très forte demande dans ce sens. Nous avons tous imaginé ce que feraient des robots dotés d'une grande intelligence et de corps flexibles. Que diriez-vous - cela Cela produira certainement un énorme changement. Mais il reste encore un long chemin à parcourir dans cette direction, et j'espère aussi pouvoir avoir un impact dans cette direction et essayer de faire quelque chose dans ce sens.

Ivan estime également que l'intelligence incorporée constitue sans aucun doute une grande opportunité pour la prochaine étape de l'IA : « Je pense que la plus grande opportunité est le « modèle d'action » qui peut affecter les entités. Combiner l'IA avec l'ingénierie et les produits physiques sera très excitant. " De nombreuses entreprises s'y intéressent. Cependant, pour que cette technologie se matérialise, la précision du modèle doit être encore améliorée. "

En outre, Aidan a également formulé une vision à plus long terme pour le développement intelligent et les applications futures de l'IA : "Désormais, la construction des modèles d'IA repose sur les humains. Afin de rendre l'IA plus intelligente, nous utiliserons diverses connaissances humaines de haut niveau pour " Entraînez-le. Par exemple, c'est comme demander à une personne très intelligente d'enseigner une IA pas si intelligente. Ensuite, à l'avenir, si le modèle d'IA devient très intelligent et que toutes les connaissances humaines ont été apprises par lui, il le fera. Nous sommes confrontés à un point critique : les humains n’ont plus rien à enseigner à l’IA.

Ce qui m’intéresse le plus, c’est : que se passera-t-il si l’IA franchit ce point critique ? Si un groupe d’IA qui ont appris les connaissances existantes des humains parlent, explorent et apprennent ensemble, généreront-ils de nouvelles connaissances ?

Peut-être que lorsque ce moment viendra, nous, les humains, apprendrons de nouvelles connaissances grâce à l’IA, et l’IA amènera les humains à nager dans le nouvel océan de la connaissance. "

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)