70-слойна модель з потужністю, що зрівнюється з традиційними малими моделями, архітектурний дизайн GA/SWA 1:7 має свої особливості

Переглянути оригінал
BlockBeatNews
Роулфлі розкриває секрети зниження витрат MiMo: попереднє заповнення уваги зменшено до рівня глобального GQA з 10 шарами
Xiaomi MiMo-V2.5 Після постійного зниження цін на API, оголошено про зниження витрат за рахунок поєднання гібридної уваги та ієрархічного кешу KV: значне покращення попадання в кеш і обсягу, суттєве зниження вартості кешу, додаткове зменшення витрат за рахунок перекриття кешу. Витрати на введення та виведення зменшуються на 60–80%, оскільки рівень GA/SWA становить 1:7, на етапі попереднього заповнення враховуються лише локальні вікна, що робить обчислювальну потужність 70-шарової моделі еквівалентною меншій кількості шарів традиційної моделі. Зниження цін є структурним зниженням витрат, що передбачає співпрацю базових алгоритмів і системи інференції для контролю витрат і уникнення цінової війни.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено