ME News消息，4月24日（UTC+8），据动察Beating监测，小米大模型团队负责人罗福莉在首次深度访谈中披露，MiMo-V2-Pro模型基座总参数量达1T，训练动用数千张GPU。
Она считает, что масштаб 1T в настоящее время является минимальным требованием для достижения уровня, близкого к Claude Opus 4.6, и получения пропуска в следующую фазу конкуренции Agent.
На техническом уровне Pro-версия доводит соотношение глобального внимания и внимания со скользящим окном до 7:1, достигая экстремального разрежения, при увеличении количества параметров контролирует стоимость вывода для длинных текстов, и продолжает использовать архитектуру MTP (многотокенное предсказание) для использования избыточной вычислительной мощности для ускорения вывода.
На уровне управления, в команде MiMo из ста человек только 30-40 непосредственно занимаются основными итерациями; в команде нет должностных уровней, четкого разделения на группы и дедлайнов по сдаче. При возникновении нестабильных числовых проблем, таких как скачки потерь при обучении, команда предпочитает напрямую остановить обучение для выяснения причин, даже если это займет одну-две недели и потребует затрат вычислительных мощностей в миллионы.
(Источник: BlockBeats)

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateCompletesDividendDistribution
539,89K Популярность
#
CirclePlunges17%
4,16M Популярность
#
IsraelStrikesIranBTCPlunges
67,53K Популярность
#
PredictWorldCupShare20000U
167,61K Популярность
#
GateCardPointsSystemLaunched
121,09K Популярность

Закреплено

Карта сайта

小米披露1T模型MiMo-V2-Pro训练细节：动用数千卡，无职级无deadline

Популярные темы

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закреплено