Резюме: Модель M2 не змогла вивести 'Ma Jiaqi', оскільки токенізатор об’єднав 'Jiaqi' у один токен під час тренування; нестача даних після тренування спричинила зсув токенів, особливо в японській мові. Синтетичне повторне навчання виправило зсув і відновило стабільність.Анотація: Ця стаття підсумовує дослідження причин, чому великі моделі MiniMax M2 не змогли створити токен 'Ma Jiaqi'. Основною причиною було злиття токенів у токенізаторі під час тренування, ускладнене нестачею даних після тренування, що призвело до зсуву токенів і змішування мов, особливо в японській. Повне сканування близько 200 000 токенів показало широке погіршення, причому японська мова була найсильніше уражена. Вирішенням стало створення синтетичного тренувального набору з повним словником, щоб кожен токен міг бути практикованим. Після повторного навчання кількість міжмовних забруднень різко знизилася (кількість російських символів у японських відповідях зменшилася з 47% до 1%), а стабільність векторного простору словника (косинусна схожість) зросла з 0,329 до понад 0,97.

AirdropBlackHole

2026-05-09 09:11:17

Генерація анотацій у процесі

Згідно з моніторингом Dongcha Beating, MiniMax опублікував технічний блог, у якому розкривається причина неспроможності його великої моделі серії M2 виводити ім’я «Ма Цзяці». Розслідування почалося з конкретного випадку і зрештою виявило системну проблему деградації, що впливала на весь словник. Причиною було визначено те, що токенізатор (компонент, який розділяє текст на одиниці для обробки моделлю) злив «Цзяці» у самостійний токен під час тренування. На етапі попереднього навчання модель стикнулася з великою кількістю інтернет-текстів і вивчила цей токен; однак у даних для діалогу після тренування було менше ніж 5 зразків, що містили «Цзяці». Під час пост-тренування високочастотні токени, такі як маркери виклику інструментів і символи коду, безперервно оновлювали навколишній векторний простір, відсуваючи низькочастотні токени, такі як «Цзяці», у неправильному напрямку. Модель все ще «розпізнає» Ма Цзяці і може точно відповідати з відповідною інформацією; вона просто втратила здатність виводити цей токен. Команда згодом провела всебічне сканування приблизно 200 000 токенів у повному словнику і виявила, що близько 4,9% токенів зазнали значної деградації. Найсильніша деградація спостерігалась у японській мові: 29,7% японських токенів показали значну деградацію, що значно перевищує корейські (3,3%), російські (3,7%), китайські (3,9%) та англійські (3,5%). Інші помітно деградовані токени включали інтернет-SEO «сміттєві» терміни, такі як «легендарний приватний сервер» і «безболісний аборт», механізми яких ідентичні «Цзяці». Сильна деградація в японській мові також розв’язала давню загадку. Раніше модель іноді змішувала російські або корейські символи у японських діалогах, але причина була невідома. Аналіз показав, що після дрейфу параметрів японських токенів вони заплуталися з токенами інших мов у векторному просторі, що призводило до неправильного активування японських токенів (мішаних мов) і відсувало сусідні низькочастотні китайські токени за межі нормального ймовірнісного діапазону (забування токенів). Рішення полягає у створенні синтетичного набору даних, що охоплює весь словник, що дозволить моделі практикувати кожен токен за допомогою простих повторювальних завдань. Результати були миттєвими: частка російських символів, що змішувалися у японські відповіді, знизилася з 47% до 1%, а стабільність вихідних параметрів для всього словника (косинусна схожість) зросла з низького рівня 0,329 до понад 0,97.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
945.1K Популярність
#
BTCBackAbove80K
59.43M Популярність
#
IsraelStrikesIranBTCPlunges
45.32K Популярність
#
JapanTokenizesGovernmentBonds
1.89M Популярність
#
#DailyPolymarketHotspot
862.69K Популярність

Закріпити

карта сайту

Чому великі моделі не здатні генерувати «Ма Цзяці»: аналіз токенів MiniMax виявляє майже 5% забутих токенів після дообучення

Популярні теми

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закріпити