JetBrains ця хвиля відкритого коду дуже серйозна, модель на 12B активована лише на 2.5B, витрати контролюються дуже строго, прискорення чорновика MTP теж має свій сенс

Переглянути оригінал
CoinNetwork
Модель коду Mellum-2 з відкритим кодом JetBrains: вбудована підтримка MTP-заголовка для прискорення спекулятивного декодування
JetBrains відкрили Mellum-2, модель експертів з гібридним кодом на 12 мільярдів параметрів. Щоб зменшити витрати на виведення, активується лише приблизно 2,5 мільярди параметрів на токен, ваги вже опубліковані на Hugging Face, Apache 2.0. Додано модуль багато токенних передбачень (MTP), під час виведення голова MTP виступає як швидкий драфт-модель для прискорення вибірки. Пропонуються три версії: базова, для діалогу та роздумів, причому версія роздумів може показувати явний ланцюг мислення перед виведенням. Бенчмарк: Humaneval 41.46%, MMLU 70.87%.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено