Подробности о технологии оптимизации всей цепочки системы первичного моделирования Xiaomi MiMo впервые раскрыты

robot
Генерация тезисов в процессе
Марсианские финансы новости 30 мая — Xiaomi официально объявила о полном оптимизационном решении для системы вывода модели серии MiMo-V2.5. Команда сосредоточилась на гибридной архитектуре SWA + MoE + мультимодальной, систематически переработала полный стек вывода, начиная с управления KVCache, многоуровневого кэширования, префиксного кэширования до стратегий планирования и цепочек Prefill/Decode, KVCache хранение сжато примерно в 1/7 по сравнению с однородными решениями, что значительно снизило стоимость вывода в сценариях с длинными последовательностями — это основа технологий для снижения цен в этом обновлении. 27 мая серия API MiMo-V2.5 завершила постоянное снижение цен, максимальный уровень снижения достиг 99%, независимо от длины входных данных. (Общий обзор)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GasFeesForNightRuns
· 12ч назад
Xiaomi снизила издержки на эту волну до щиколотки, 99% снижение — это всерьёз?
Посмотреть ОригиналОтветить0
QueuePosition
· 12ч назад
От чипа до фреймворка и ценообразования API — вся цепочка интегрирована, стратегия Xiaomi очень похожа на ценностное предложение на рынке мобильных телефонов в те годы.
Посмотреть ОригиналОтветить0
PerpColdHands
· 13ч назад
Подождем реальные тесты, если компрессия KVCache в соотношении 1/7 действительно, то узкое место по видеопамяти можно будет вздохнуть с облегчением.
Посмотреть ОригиналОтветить0
TheRedTelephoneBoothInTheRuins
· 13ч назад
Архитектура MoE + внимание SWA, эта конфигурация считается одной из лучших в открытом доступе, в открытом сообществе, а техническое раскрытие Xiaomi на этот раз довольно ясное
Посмотреть ОригиналОтветить0
BlueLakeOverlooker
· 13ч назад
Структура издержек на вывод изменилась, и ценовые ориентиры для downstream-приложений также требуют переоценки, вся экосистема может перераспределиться.
Посмотреть ОригиналОтветить0
ResilientGoldfish
· 13ч назад
Независимо от длины входных данных — это очень круто, пользователи длинных текстов будут в восторге, больше не нужно тщательно считать токены.
Посмотреть ОригиналОтветить0
GlassDomeUniverse
· 13ч назад
Prefill/Decode цепочка изменилась, дизайн многоуровневого кэша + кэш с префиксом очень детализирован, похоже, что это действительно отточено в реальных бизнес-процессах
Посмотреть ОригиналОтветить0
SecondaryMarketDeserter
· 13ч назад
Xiaomi собирается сделать вывод больших моделей по очень низкой цене? Снижение цен на API на 99%, как конкуренты смогут конкурировать?
Посмотреть ОригиналОтветить0
Semi-MeltedIceCream
· 13ч назад
27 мая — постоянное снижение цен, независимо от длины ввода — эта ценовая стратегия прямо перевернула старую игру с оплатой по токенам
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено