Une réduction de 99 % du coût de hit du cache semble exagérée, mais la mise en cache KV hiérarchique au niveau SWA peut vraiment augmenter la capacité, et la véritable barrière économique se trouve en dessous du seuil de rentabilité.

Voir l'original
CoinNetwork
Luofuli dévoile la carte secrète de la réduction des coûts de MiMo : le calcul de l'attention pré-remplie réduit à un niveau global GQA de 10 couches
CoinWorld报道,罗福莉在X平台公布MiMo-v2.5 API永久降价后的降本机制:与DeepSeek对齐后,高负载推理仍保持盈亏平衡,成本来自混合注意力与层次化KV缓存。为实现缓存命中成本降99%的目标,Mi推理框架针对SWA做了层次化KV缓存优化,测试显示缓存容量提升5倍,成本降80%。她表示,低成本推理能激发终端需求,企业应避免恶性降价,通过算法与推理系统底层协同,将实际运行开销控制在盈亏平衡线以下。
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé