70-слойная модель сравнялась по вычислительной мощности с традиционной небольшой моделью, архитектурный дизайн GA/SWA 1:7 имеет свои особенности

Посмотреть Оригинал
BlockBeatNews
Роулфи раскрывает секреты снижения затрат MiMo: вычислительная нагрузка на предзаполнение внимания снижена до уровня глобального GQA в 10 слоёв
小米 MiMo-V2.5 在 API 永久降价后,公布通过混合注意力与层次化 KV 缓存实现降本:缓存命中与容量显著提升、缓存成本大幅下降,结合缓存重叠进一步压低开销。输入输出成本下降 60–80%,因 GA/SWA 层比为 1:7,Prefill 阶段仅计算局部窗口,使 70 层模型的算力相当于较少层的传统模型。降价是结构性降本,主张以底层算法与推理系统协同控本,避免价格战。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено