DeepSeek-V4-Flash lancé sur Huawei Cloud

Le 24 avril, le modèle DeepSeek-V4 a été officiellement publié et open source, avec une adaptation en avant-première sur Huawei Cloud.
Concernant DeepSeek-V4, le modèle d’adaptation en avant-première sur Huawei Cloud utilise un mécanisme de compression d’attention hiérarchique, réalisant une gestion efficace de l’allocation du cache KV sous le mécanisme d’attention V4, et fournit plus de 10 opérateurs de fusion haute performance tels que TopK, SWA, CFA, etc.
Associé à une planification asynchrone du cadre, à une spéculation multi-étapes MTP et à d’autres optimisations du cadre, il prend en charge une inférence haute performance avec un contexte natif de 1 million.
Actuellement, la plateforme de service de modèles MaaS (Model as a Service) de Huawei Cloud offre aux développeurs un service Tokens permettant d’appeler en un clic l’API DeepSeek-V4-Flash sans déploiement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler