Claude Mythos a poussé Liang Wenfeng à décider de lever des fonds.

robot
Création du résumé en cours

Quel est le déclencheur direct du financement de DeepSeek ?

Selon les dernières informations de The Information, Liang Wenfeng a vu que Claude Mythos avait développé des capacités ultra-puissantes grâce à d'énormes capacités de calcul et de données, et a réalisé que DeepSeek ne pourrait tout simplement pas continuer sans accumuler des munitions.

Anthropic a publié sa première prévisualisation en avril de cette année, et les rumeurs de financement de DeepSeek ont également été rapportées pour la première fois à la mi-avril.

La chronologie correspond parfaitement.

L'équipe de 300 personnes de DeepSeek va doubler

Après la finalisation du financement, DeepSeek a publié une déclaration publique rare ce jeudi :

Tous les départements recrutent « au moins le double » de personnel, couvrant le développement de systèmes d'IA, l'infrastructure, le développement de produits et la recherche en apprentissage profond.

Actuellement, DeepSeek compte environ 300 employés dans toute l'entreprise.

Parmi eux, l'équipe Harness, le département clé chargé de transformer les modèles en agents d'IA autonomes, est déjà en train de passer des entretiens tous les jours.

Le responsable de cette équipe, Cui Tianyi, a rejoint DeepSeek en mars de cette année après avoir quitté Jane Street, et a révélé ce rythme sur X plus tôt ce mois-ci.

En même temps, DeepSeek accélère l'adaptation aux puces nationales. Liang Wenfeng croit que les puces Huawei pourront rattraper le niveau de Nvidia dans quelques années, et que DeepSeek devrait être le premier à terminer l'adaptation.

Huawei n'a appris que l'année dernière que DeepSeek testait secrètement ses propres puces, et a ensuite commencé à collaborer directement avec eux.

Mais le coût de l'adaptation n'est pas négligeable.

Les systèmes d'entraînement et de déploiement de DeepSeek sont construits autour du logiciel CUDA de Nvidia. Les ingénieurs doivent réécrire le logiciel sous-jacent pour que les modèles fonctionnent efficacement sur les puces Huawei.

Cela a directement conduit DeepSeek à ne pas publier de nouveaux modèles de nouvelle génération pendant 15 mois, une période creuse particulièrement frappante à une époque où les autres laboratoires de premier plan publient un nouveau modèle tous les deux ou trois mois.

Cela a également fait manquer à DeepSeek la vague des outils de programmation déclenchée par Anthropic Claude Code au second semestre de l'année dernière.

Mais Liang Wenfeng a déclaré aux investisseurs lors du roadshow que les outils de programmation, tout comme les chatbots IA, ne sont que des produits temporaires dans l'évolution de l'IA, et que miser lourdement sur ces produits à court terme les éloignerait de l'objectif ultime d'atteindre l'AGI.

« L'IA ne devrait pas être contrôlée par une minorité »

En 2023, il a effectivement rencontré des investisseurs, mais lorsqu'il leur a dit que DeepSeek ne faisait que de la recherche approfondie et de l'exploration scientifique, sans aucune commercialisation ni feuille de route produit, les investisseurs ont battu en retraite les uns après les autres.

Finalement, Liang Wenfeng a financé lui-même ce laboratoire, et ce pendant trois ans.

Dans ce financement de 7,4 milliards de dollars, Liang Wenfeng a lui-même signé le plus gros chèque : 20 milliards de yuans (environ 3 milliards de dollars), soit les deux cinquièmes du total.

Après la finalisation du financement, DeepSeek a mis en place un plan d'actionnariat salarié, attribuant des actions en fonction de la valorisation réelle.

Liang Wenfeng a dit à ses proches que sa stratégie ne changerait pas : continuer à être open source, maintenir des prix bas, et se concentrer sur l'AGI. Il définit l'AGI comme le niveau humain des machines dans un large éventail de tâches telles que la compréhension, le raisonnement, l'apprentissage, la planification et l'adaptation.

Il a également dit à ses proches que l'IA ne devrait pas être contrôlée par une minorité.

DeepSeek est actuellement le seul laboratoire d'IA majeur à rendre publiquement disponibles tous les codes sous-jacents de ses modèles.

Parmi les développeurs américains, la présence de DeepSeek se développe rapidement. Le modèle phare V4, publié en avril de cette année, a vu sa part d'utilisation de tokens sur la plateforme AI Gateway de Vercel passer de moins de 1 % à 17 % en mai, devenant ainsi le troisième modèle de la plateforme après Anthropic et Google en un mois.

Le prix de la version légère V4 Flash est 20 à 50 fois moins cher que les modèles d'Anthropic.

Cette croissance s'est poursuivie en juin.

Source de cet article : QuantumBit

Avertissement sur les risques et clause de non-responsabilité

Le marché comporte des risques, investissez avec prudence. Cet article ne constitue pas un conseil d'investissement personnel et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins particuliers de chaque utilisateur. Les utilisateurs doivent déterminer si les opinions, points de vue ou conclusions de cet article sont adaptés à leur situation spécifique. Investir en conséquence relève de votre propre responsabilité.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé