Architecture MoE clairsemée, 25 milliards de paramètres d'activation économisent l'énergie de manière remarquable

Voir l'original
CoinNetwork
Cohere open source Command A+ : modèle MoE de 218 milliards de paramètres, axé sur les agents d'entreprise et la souveraineté des données
Cohere ouvre officiellement le modèle sparse mixture expert Command A+ de 218 milliards de paramètres, sous licence Apache 2.0, destiné aux agents d'entreprise et au déploiement en privé, mettant l'accent sur la souveraineté des données et l'isolation physique. 218 milliards en tout, 25 milliards d'activation par inférence unique ; peut fonctionner avec deux H100 ou un seul B200, Hugging Face proposant des versions à faible précision telles que W4A4. Command A+ supporte nativement l'entrée multimodale, un contexte d'entrée de 128K, une longueur de sortie de 64K, pour des flux de travail complexes tels que l'inférence avancée, l'appel d'outils autonomes, la requête de bases de données et les documents longs, prenant en charge 48 langues (y compris les langues officielles de l'UE).
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé