МіМо Xiaomi вперше розкриває технічні деталі оптимізації повного ланцюга системи моделі для публічного виведення

robot
Генерація анотацій у процесі
Марс Фінанс повідомляє 30 травня: Xiaomi офіційно оприлюднила повний оптимізаційний план системи виведення моделей серії MiMo-V2.5. Команда зосередилася на гібридній архітектурі SWA + MoE + мультимодальній, систематично перебудувала повний стек інференції від управління KVCache, ієрархічного кешування, префіксного кешування до стратегій розподілу та ліній Prefill/Decode, зменшивши зберігання KVCache до приблизно 1/7 рівня рішень, що значно знизило вартість інференції у сценаріях з довгими послідовностями — це основа технології зниження цін. 27 травня серія API MiMo-V2.5 завершила постійне зниження цін, максимальне зниження досягло 99%, незалежно від довжини введення. (Обширний огляд)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GasFeesForNightRuns
· 7год тому
Ціна на цю хвилю просування Xiaomi знизилася до щиколотки, чи справді зниження на 99%?
Переглянути оригіналвідповісти на0
QueuePosition
· 7год тому
Від чіпів до фреймворків і цін на API — вся ланцюг з'єднана, цей підхід Xiaomi дуже нагадує стратегію співвідношення ціна-якість на ринку мобільних телефонів у ті часи.
Переглянути оригіналвідповісти на0
PerpColdHands
· 7год тому
Зачекаємо на реальні випробування, якщо співвідношення стиснення KVCache 1/7 виявиться правдивим, обмеження пам’яті відеокарти послабшає.
Переглянути оригіналвідповісти на0
TheRedTelephoneBoothInTheRuins
· 8год тому
Архітектура MoE + увага SWA, ця конфігурація також належить до першої ліги у відкритому коді, цього разу технічне розкриття Xiaomi було досить відкритим.
Переглянути оригіналвідповісти на0
BlueLakeOverlooker
· 8год тому
Структура витрат на дедукцію змінилася, цінові орієнтири для downstream-додатків також потрібно переоцінити, вся екосистема можливо зазнає перебудови
Переглянути оригіналвідповісти на0
ResilientGoldfish
· 8год тому
Незалежно від довжини введення — це дуже круто, довгі тексти користувачі будуть у захваті, більше не потрібно ретельно рахувати токени.
Переглянути оригіналвідповісти на0
GlassDomeUniverse
· 8год тому
Prefill/Decode лінія всі змінили, дизайн ієрархічного кешування + кешування за префіксом дуже детальний, здається, це справжня бізнесова доведена робота
Переглянути оригіналвідповісти на0
SecondaryMarketDeserter
· 8год тому
Xiaomi збирається зробити великомодельне виведення дешевим? Зниження цін на API на 99%, щоб інші не могли конкурувати
Переглянути оригіналвідповісти на0
Semi-MeltedIceCream
· 8год тому
27 травня постійне зниження цін, незалежно від довжини введення — ця стратегія ціноутворення прямо зірвала старий спосіб оплати за токени
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено