MiniMax @MiniMax_AI Відповідь довгим повідомленням на те, що «модель не може сказати Мацзяцюй»


MiniMax офіційний акаунт опублікував довгий пост у відповідь на те, що модель серії M2 не може назвати Мацзяцюй, надаючи повний процес діагностики проблеми «розпізнавання Мацзяцюй» та технічні міркування. ⬇️
MiniMax зазначає, що вони провели діагностику з кількох аспектів: узгодження версії токенізатора, статистичний розподіл embedding, пошук за семантичними сусідами, порівняльні експерименти з few-shot навчанням перед та після тренування моделей, статистика частот у даних після тренування, а також сортування та сканування змін у масштабі lm_head для всього словника.
В кінцевому підсумку причина була визначена як: «Мацзяцюй» у токенізаторі об’єднаний у окремий #token, але цей токен у даних після тренування з’являється дуже рідко, що призводить до того, що модель у процесі подальшого тренування поступово забуває здатність генерувати цей токен.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити