Xiaomi розкриває деталі навчання моделі MiMo-V2-Pro розміром 1T: використано тисячі карт, без посадових рівнів і дедлайнів

robot
Генерація анотацій у процесі
ME News повідомляє, 24 квітня (UTC+8), за даними Beating, керівник команди великої моделі Xiaomi Ло Фулі вперше в глибокому інтерв'ю розкрила, що загальна кількість параметрів базової моделі MiMo-V2-Pro досягає 1T, для тренування використано тисячі графічних процесорів. Вона вважає, що масштаб 1T наразі є мінімальним порогом для досягнення рівня, близького до Claude Opus 4.6, і для отримання квитка на участь у наступному етапі конкуренції Agent. На технічному рівні Pro-версія доводить співвідношення глобальної уваги та ковзної уваги до крайнього розрідженого співвідношення 7:1, контролюючи витрати на логічний висновок довгих текстів при збільшенні кількості параметрів, а також використовує архітектуру MTP (багатотокенне передбачення) для прискорення логічного висновку за рахунок надлишкових обчислювальних потужностей. На управлінському рівні в команді MiMo зі ста осіб лише тридцять-сорок безпосередньо займаються основними ітераціями, у команді не встановлено посадових рівнів, немає чіткого розподілу груп і дедлайнів. Коли виникають нестабільні числові проблеми, такі як стрибки втрат під час тренування, команда вирішує безпосередньо зупинити тренування для перевірки, навіть якщо це займе один-два тижні простою та коштуватиме мільйони обчислювальних потужностей. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено