Зниження витрат на 99% при попаданні у кеш звучить перебільшено, але ієрархічний кеш KV рівня SWA дійсно може збільшити обсяг, а лінія беззбитковості — це справжня захисна стіна.

Переглянути оригінал
CoinNetwork
Роулфлі розкриває секрети зниження витрат MiMo: попереднє заповнення уваги зменшено до рівня глобального GQA з 10 шарами
Криптоіндустрія повідомляє, що Ло Фулі опублікувала на платформі X механізм зниження вартості після постійного зниження цін API MiMo-v2.5: після узгодження з DeepSeek високонавантажені обчислення залишаються прибутковими, витрати виникають через гібридну увагу та ієрархічне кешування KV. Щоб досягти цілі зменшення вартості кешування на 99%, фреймворк Mi для обчислень зробив ієрархічну оптимізацію кешу KV для SWA, тестування показало п’ятирічне збільшення обсягу кешу та зниження витрат на 80%. Вона зазначила, що низька вартість обчислень може стимулювати попит на кінцевому етапі, і підприємства мають уникати руйнівного зниження цін, співпрацюючи з алгоритмами та системами обчислень на нижньому рівні, щоб контролювати фактичні витрати на роботу нижче рівня беззбитковості.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено