Les GPU universels traitant 1T MoE dépassent mille tokens, cette conception collaborative a du potentiel

Voir l'original
CoinNetwork
CoinWorld消息,小米Mimo团队与AI编译优化系统组Tilert宣布推出Mimo-v2.5-pro-ultraspeed推理模式。在单台标准的8卡通用GPU节点上,成功在1万亿参数的混合专家(MoE)模型上实现超过1,000 tokens/s的极限生成速度,峰值可达约1,200 tokens/s。这标志着在无需采用晶圆级集成或纯片上SRAM专用芯片等非常规硬件的情况下,仅凭标准通用硬件和模型-系统协同设计首次突破1T模型千token生成速度。
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé