xAI має 500 000 GPU, але їхня завантаженість становить лише 11%

robot
Генерація анотацій у процесі

Китайські новини, компанія xAI, яка належить Маску, має близько 500 000 графічних процесорів NVIDIA, що є одним із найбільших кластерів серед розробників штучного інтелекту за відкритими даними. Але внутрішні меморандуми показують, що за останні кілька тижнів MFU (model flops utilization, показник використання фактичної обчислювальної потужності чипа відносно його теоретичного максимуму) становить лише близько 11%. Дослідник лабораторії-конкурента зазначив, що для більшості компаній важко перевищити 40%, але 11% — «надзвичайно низький показник». Низька завантаженість є поширеною проблемою у галузі: тренування штучного інтелекту є періодичним процесом — GPU працюють на повну потужність під час тренування, але коли дослідник аналізує результати або приймає рішення щодо наступних кроків, чипи залишаються без діла. Також існують вузькі місця на апаратному рівні: швидкість високопродуктивної пам’яті (HBM) не встигає за обчислювальними чипами, і при передачі даних між тисячами GPU будь-який слабкий ланцюг у мережі може сповільнити весь кластер. У галузі також поширене явище «фальшивих даних»: дослідник великої лабораторії повідомив, що колеги повторно запускають тренувальні експерименти, щоб підвищити показник використання, з одного боку, щоб уникнути критики з боку керівництва, а з іншого — щоб запобігти простою GPU, які можуть бути перенаправлені до інших команд.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити