Роулфлі розкриває секрети зниження витрат MiMo: попереднє заповнення уваги зменшено до рівня глобального GQA з 10 шарами

robot
Генерація анотацій у процесі
Звіт з CoinWorld, Ло Фулі оголосила на платформі X про постійне зниження цін на API для власної великої моделі MiMo-v2.5 та механізм зниження витрат за допомогою алгоритмічних оптимізацій. Вона повідомила, що після вирівнювання цін API з DeepSeek, високонавантажений інференційний двигун Xiaomi все ще може підтримувати баланс прибутків і збитків, причому зниження витрат здебільшого досягається за рахунок гібридної архітектури уваги та ієрархічної оптимізації кешу KV. Щоб зменшити вартість попадання кешу на 99%, інференційний фреймворк Xiaomi реалізував ієрархічну оптимізацію кешу KV для уваги з ковзним вікном (SWA), і виробничі випробування показали, що ця ієрархічна оптимізація збільшила обсяг кешованих токенів у 5 разів і зменшила вартість кешу на 80%. Ло Фулі зазначила, що низька вартість інференційних сервісів сприяє стимулюванню потреб у розумних кінцевих пристроях, і компанії, що розробляють великі моделі, повинні уникати сліпої цінової війни, шляхом спільного проектування алгоритмів і систем інференції на низькому рівні, щоб контролювати фактичні операційні витрати і тримати їх нижче за точку беззбитковості.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
ASolitaryRockBeforeTheVolcano
· 3год тому
MiMo цей зниження ціни справді жорстке, зменшення витрат на 99% звучить як науково-фантастичний фільм, але оптимізація SWA дійсно має дещо особливе
Переглянути оригіналвідповісти на0
LendingRateAnxiety
· 3год тому
Змішана увага + ієрархічне кешування, ця комбінація збільшує навантаження на витрати на обчислення для малих компаній.
Переглянути оригіналвідповісти на0
Pragmatists
· 3год тому
Як досягти п’ятимірного підвищення обсягу кешу? Чи є наукові статті про ієрархічний KV-кеш, які можна детально вивчити?
Переглянути оригіналвідповісти на0
InstantNoodlesWithContracts
· 3год тому
Співпраця на рівні алгоритмів і систем для зниження витрат — це правильне рішення, лише зосереджуватися на цінових коливаннях без розвитку — безперспективно, і Роулі це добре розуміє.
Переглянути оригіналвідповісти на0
PocketValidator
· 3год тому
DeepSeek після вирівнювання все ще може бути прибутковим або збитковим, що свідчить про те, що на початковому етапі ціноутворення дійсно залишили простір, і тепер це вважається обґрунтованим.
Переглянути оригіналвідповісти на0
  • Закріплено