Luofuli dévoile la carte secrète de la réduction des coûts de MiMo : le calcul de l'attention pré-remplie réduit à un niveau global GQA de 10 couches

robot
Création du résumé en cours
Coin界网消息,罗福莉在X平台公布了自研大模型MiMo-v2.5系列实施API永久性降价后的算法降本机制。她透露,在API价格对齐DeepSeek后,小米的高负载推理引擎仍能保持盈亏平衡,成本降低主要来自混合注意力架构与层次化KV缓存优化。针对缓存命中成本降低99%的设计目标,小米推理框架实现了针对滑动窗口注意力SWA的层次化KV缓存优化,生产测试显示,层次化优化将缓存的token容量提升至5倍,降低了80%的缓存成本。罗福莉表示,低成本的推理服务有利于激发终端智能需求,大模型企业应当避免盲目的价格战,通过算法与推理系统的底层协同设计,将实际运行开销控制在盈亏平衡线以下。
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
ASolitaryRockBeforeTheVolcano
· Il y a 5h
MiMo cette baisse de prix est vraiment sévère, une réduction de 99 % des coûts ressemble à de la science-fiction, mais l'optimisation de SWA a vraiment du potentiel
Voir l'originalRépondre0
LendingRateAnxiety
· Il y a 5h
Attention mixte + cache hiérarchique, avec cette combinaison, la pression sur le coût de raisonnement des petites entreprises est encore plus grande.
Voir l'originalRépondre0
Pragmatists
· Il y a 5h
Comment réaliser une augmentation de capacité de cache de 5 fois ? Y a-t-il des articles sur la mise en cache hiérarchique KV à étudier en détail ?
Voir l'originalRépondre0
InstantNoodlesWithContracts
· Il y a 5h
La réduction des coûts par la collaboration entre la couche algorithmique et la couche système est la bonne solution, se concentrer uniquement sur le prix de la vapeur n'a pas de débouché, Luo Fulili voit cela très clairement.
Voir l'originalRépondre0
PocketValidator
· Il y a 5h
DeepSeek après alignement peut encore atteindre l'équilibre entre gains et pertes, ce qui indique que le prix initial a effectivement laissé de la marge, maintenant ainsi un retour à la rationalité.
Voir l'originalRépondre0