Анотація: Інтерв’ю з Луо Фулі описує Xiaomi MiMo-V2-Pro, модель з трильйоном параметрів, з великим обсягом GPU, орієнтовану на можливості рівня Claude Opus 4.6. Вона використовує екстремальну розріджену увагу з MTP; операційні ризики включають невелику, недосконалу команду, яка зупиняє тренування при різкому зростанні втрат, що спричиняє великі витрати.MiMo-V2-Pro нібито має 1 трильйон параметрів, навчений на тисячах GPU, прагнучи до рівня продуктивності Claude Opus 4.6. Вона використовує екстремальну розріджену увагу (7:1) з MTP; невелика команда зупиняє нестабільне тренування для усунення несправностей, ризикує мільйонами у витратах.

AirdropBlackHole

2026-04-24 06:31:18

Генерація анотацій у процесі

Згідно з моніторингом Dongcha Beating, керівник команди великих моделей Xiaomi Luo Fuli розкрила в своєму першому глибокому інтерв’ю, що базова модель MiMo-V2-Pro має загальну кількість параметрів 1Т, використовуючи тисячі GPU для навчання. Вона вважає, що масштаб у 1Т є базовою лінією для досягнення продуктивності, близької до Claude Opus 4.6, та для входу в наступну фазу конкуренції агентів. На технічному рівні версія Pro підвищує співвідношення глобальної уваги до уваги на ковзному вікні до екстремального розрідженого співвідношення 7:1, контролюючи вартість логіки для довгих текстів, одночасно збільшуючи кількість параметрів, і продовжує використовувати архітектуру MTP (Multi-Token Prediction) для використання надлишкової обчислювальної потужності для прискореного виведення. З управлінської сторони, лише близько 30-40 з сотні членів команди MiMo безпосередньо залучені до основних ітерацій, без встановлених рівнів посад, чітких групових поділів або строків доставки. При виникненні нестабільних числових проблем, таких як раптові зміни у втраті під час навчання, команда обирає припинити навчання для усунення несправностей, навіть якщо це означає зупинку на одну або дві тижні і витрати мільйони на обчислювальні ресурси.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
156.83K Популярність
#
CryptoMarketSeesVolatility
222.91K Популярність
#
IsraelStrikesIranBTCPlunges
31.65K Популярність
#
rsETHAttackUpdate
68.69K Популярність
#
US-IranTalksStall
176.02K Популярність

Закріпити

карта сайту

Xiaomi розкриває деталі тренування моделі 1T MiMo-V2-Pro: використано тисячі GPU, відсутні рівні завдань або дедлайни

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити