ME News повідомляє, 24 квітня (UTC+8), за даними Beating, керівник команди великої моделі Xiaomi Ло Фулі вперше в глибокому інтерв'ю розкрила, що загальна кількість параметрів базової моделі MiMo-V2-Pro досягає 1T, для тренування використано тисячі графічних процесорів. Вона вважає, що масштаб 1T наразі є мінімальним порогом для досягнення рівня, близького до Claude Opus 4.6, і для отримання квитка на участь у наступному етапі конкуренції Agent. На технічному рівні Pro-версія доводить співвідношення глобальної уваги та ковзної уваги до крайнього розрідженого співвідношення 7:1, контролюючи витрати на логічний висновок довгих текстів при збільшенні кількості параметрів, а також використовує архітектуру MTP (багатотокенне передбачення) для прискорення логічного висновку за рахунок надлишкових обчислювальних потужностей. На управлінському рівні в команді MiMo зі ста осіб лише тридцять-сорок безпосередньо займаються основними ітераціями, у команді не встановлено посадових рівнів, немає чіткого розподілу груп і дедлайнів. Коли виникають нестабільні числові проблеми, такі як стрибки втрат під час тренування, команда вирішує безпосередньо зупинити тренування для перевірки, навіть якщо це займе один-два тижні простою та коштуватиме мільйони обчислювальних потужностей. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
543,84K Популярність
#
CirclePlunges17%
4,16M Популярність
#
IsraelStrikesIranBTCPlunges
67,56K Популярність
#
PredictWorldCupShare20000U
167,96K Популярність
#
GateCardPointsSystemLaunched
121,93K Популярність

Закріплено

карта сайту

Xiaomi розкриває деталі навчання моделі MiMo-V2-Pro розміром 1T: використано тисячі карт, без посадових рівнів і дедлайнів

Популярні теми

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закріплено