Xiaomi розкриває деталі тренування моделі 1T MiMo-V2-Pro: використано тисячі GPU, відсутні рівні завдань або дедлайни

robot
Генерація анотацій у процесі

Згідно з моніторингом Dongcha Beating, керівник команди великих моделей Xiaomi Luo Fuli розкрила в своєму першому глибокому інтерв’ю, що базова модель MiMo-V2-Pro має загальну кількість параметрів 1Т, використовуючи тисячі GPU для навчання. Вона вважає, що масштаб у 1Т є базовою лінією для досягнення продуктивності, близької до Claude Opus 4.6, та для входу в наступну фазу конкуренції агентів. На технічному рівні версія Pro підвищує співвідношення глобальної уваги до уваги на ковзному вікні до екстремального розрідженого співвідношення 7:1, контролюючи вартість логіки для довгих текстів, одночасно збільшуючи кількість параметрів, і продовжує використовувати архітектуру MTP (Multi-Token Prediction) для використання надлишкової обчислювальної потужності для прискореного виведення. З управлінської сторони, лише близько 30-40 з сотні членів команди MiMo безпосередньо залучені до основних ітерацій, без встановлених рівнів посад, чітких групових поділів або строків доставки. При виникненні нестабільних числових проблем, таких як раптові зміни у втраті під час навчання, команда обирає припинити навчання для усунення несправностей, навіть якщо це означає зупинку на одну або дві тижні і витрати мільйони на обчислювальні ресурси.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити