Перший інженер Seed ByteDance: один цикл ітерації ByteDance триває півроку, чутки про Google — всього три місяці

robot
Генерація анотацій у процесі

За даними моніторингу Beating, інженер команди Seed колишньої ByteDance, тепер доцент університету Пекіна Чжан Чі, у подкасті «Into Asia» розкрив, що завершення одного раунду тренування великої моделі (передтренування та подальше тренування) у ByteDance займає близько шести місяців, тоді як за чутками у Google — лише три місяці. Він вважає, що швидкість ітерацій є однією з ключових причин труднощів китайських компаній у наздоганянні. Чжан Чі працює у ByteDance близько року, його команда з математики здебільшого дослідницька, він сам зазначає, що їхня роль «більше для просування», відрізняючись від команд, відповідальних за доставку моделей, передтренування та подальше тренування.

Чжан Чі описав культуру внутрішнього «benchmaxxing» (збільшення балів) у Seed: керівники команд оцінюють ефективність за відповідними benchmark, всі прагнуть підвищити свої бали, «але це не може перетворитися у реальний хороший досвід використання». Він каже, що на папері моделі китайських великих компаній можуть зрівнятися з передовими моделями США, але у реальному використанні «недостатньо хороші». Мета Seed — бути світовим лідером, «але, на жаль, я не вважаю, що ми наздогнали», навіть досягнення цілі «першої в країні» «так і не було реалізовано». Наприкінці 2024 року Seed вважає, що зрівнявся з GPT-4o, потім з’явився DeepSeek, і команда усвідомила, що різниця все ще існує; коли він приєднався, вся команда терміново переключилася на підсилене навчання.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити