МініМакс: Аналіз причин, чому велика модель не може вивести ім'я «Ма Цзяці»

robot
Генерація анотацій у процесі

Меседжі з Coinjie.com, MiniMax опублікував технічний блог, у якому розкрив процес діагностики причин неспроможності великої моделі серії m2 виводити ім’я «Ма Цзяці». Діагностика почалася з окремого випадку і в кінцевому підсумку виявила системну проблему деградації, що впливає на весь словник. Причиною є те, що при тренуванні сегментатор об’єднав «Цзяці» у окремий токен. На етапі попереднього тренування модель бачила багато текстів з Інтернету і навчилася цьому токену, але у подальших діалогових даних, що використовувалися для додаткового тренування, було менше 5 зразків з «Цзяці». В процесі додаткового тренування високочастотні токени, такі як позначки tool_call, символи коду тощо, постійно оновлювали навколишній векторний простір, витісняючи низькочастотні токени типу «Цзяці» у неправильному напрямку. Модель все ще «знає» Ма Цзяці і може точно відповідати на відповідні запити, але втрата полягає лише у здатності виводити цей токен. Команда провела повний скан приблизно 200 000 токенів у словнику і виявила, що близько 4,9% токенів зазнали значної деградації. Найбільше деградували японські токени: 29,7% японських токенів значно деградували, що значно перевищує 3,3% корейських, 3,7% російських, 3,9% китайських і 3,5% англійських.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити