小米披露1T模型MiMo-V2-Pro训练细节:动用数千卡,无职级无deadline

robot
Генерация тезисов в процессе
ME News消息,4月24日(UTC+8),据动察Beating监测,小米大模型团队负责人罗福莉在首次深度访谈中披露,MiMo-V2-Pro模型基座总参数量达1T,训练动用数千张GPU。
Она считает, что масштаб 1T в настоящее время является минимальным требованием для достижения уровня, близкого к Claude Opus 4.6, и получения пропуска в следующую фазу конкуренции Agent.
На техническом уровне Pro-версия доводит соотношение глобального внимания и внимания со скользящим окном до 7:1, достигая экстремального разрежения, при увеличении количества параметров контролирует стоимость вывода для длинных текстов, и продолжает использовать архитектуру MTP (многотокенное предсказание) для использования избыточной вычислительной мощности для ускорения вывода.
На уровне управления, в команде MiMo из ста человек только 30-40 непосредственно занимаются основными итерациями; в команде нет должностных уровней, четкого разделения на группы и дедлайнов по сдаче. При возникновении нестабильных числовых проблем, таких как скачки потерь при обучении, команда предпочитает напрямую остановить обучение для выяснения причин, даже если это займет одну-две недели и потребует затрат вычислительных мощностей в миллионы.
(Источник: BlockBeats)
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено