Роулфри раскрывает секреты снижения затрат MiMo: вычислительная нагрузка на предзаполняющее внимание снижена до уровня глобального GQA в 10 слоёв

robot
Генерация тезисов в процессе
Китайский сайт CoinWorld сообщает, что Ло Фули опубликовала на платформе X механизм снижения затрат на алгоритмы после постоянного снижения цен на API серии самодельных больших моделей MiMo-v2.5. Она раскрыла, что после выравнивания цен API с DeepSeek, высоконагруженный движок вывода Xiaomi все еще может поддерживать баланс прибыли и убытков, а снижение затрат в основном связано с гибридной архитектурой внимания и оптимизацией иерархического кэширования KV. В рамках цели снизить стоимость попадания в кэш на 99%, фреймворк вывода Xiaomi реализовал иерархическую оптимизацию кэширования KV для внимания с скользящим окном SWA, и производственные тесты показали, что иерархическая оптимизация увеличила емкость кэша токенов в 5 раз и снизила стоимость кэша на 80%. Ло Фули отметила, что недорогие сервисы вывода способствуют стимулированию потребности в умных устройствах, и крупные компании, разрабатывающие большие модели, должны избегать слепой ценовой войны, управляя фактическими затратами на работу через совместное проектирование алгоритмов и систем вывода, чтобы держать их ниже уровня безубыточности.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
ASolitaryRockBeforeTheVolcano
· 3ч назад
MiMo эта волна снижения цен действительно жесткая, снижение затрат на 99% звучит как из научно-фантастического фильма, но оптимизация SWA действительно имеет смысл
Посмотреть ОригиналОтветить0
LendingRateAnxiety
· 3ч назад
Гибридное внимание + иерархическое кэширование — эта комбинация увеличила нагрузку на вычислительные ресурсы для небольших компаний.
Посмотреть ОригиналОтветить0
Pragmatists
· 3ч назад
Как добиться увеличения кэш-емкости в 5 раз? Есть ли статьи о иерархическом KV-кэше для подробного изучения?
Посмотреть ОригиналОтветить0
InstantNoodlesWithContracts
· 3ч назад
Совместное снижение затрат на уровне алгоритмов и систем — это правильное решение, только повышая цену на световые卷, не выйдешь, Роффли в этом очень ясно видит.
Посмотреть ОригиналОтветить0
PocketValidator
· 3ч назад
DeepSeek после выравнивания всё ещё может достигать безубыточности, что говорит о том, что в начальной цене действительно оставили запас, сейчас считаю, что цена возвращается к разумному уровню
Посмотреть ОригиналОтветить0
  • Закреплено