Резюме: Модель M2 не смогла вывести 'Ma Jiaqi', потому что токенизатор объединил 'Jiaqi' в один токен во время обучения; нехватка данных после обучения вызвала смещение токенов, особенно в японском языке. Синтетическая переобучение исправила смещение и восстановила стабильность.Аннотация: В этой статье подводится итог расследования причин, по которым крупные модели MiniMax M2 не смогли сгенерировать токен 'Ma Jiaqi'. Основной причиной было объединение токенов токенизатором во время обучения, усугубленное нехваткой данных после обучения, что привело к смещению токенов и смешению языков, особенно в японском. Полное сканирование около 200 000 токенов показало широкое ухудшение, при этом японский язык был наиболее пострадавшим. Решением стало создание синтетического набора данных для обучения с полным словарем, чтобы каждый токен мог быть практикован. После переобучения уровень межъязыкового загрязнения резко снизился (доля русских символов в японских ответах снизилась с 47% до 1%), а стабильность векторного пространства словаря (косинусное сходство) выросла с 0,329 до более 0,97.

AirdropBlackHole

2026-05-09 09:11:17

Генерация тезисов в процессе

Согласно мониторингу Dongcha Beating, MiniMax опубликовала технический блог, раскрывающий причину, по которой крупная модель серии M2 не могла выводить имя «Ма Цзяци». Расследование началось с конкретного случая и в конечном итоге выявило системную проблему деградации, затрагивающую весь словарь. Причиной послужило то, что токенизатор (компонент, который сегментирует текст на единицы для обработки моделью) объединял «Цзяци» в отдельный токен во время обучения. На этапе предварительного обучения модель сталкивалась с большим количеством интернет-текстов и выучила этот токен; однако в данных для диалогов после обучения было менее 5 образцов, содержащих «Цзяци». Во время пост-обучения токены высокой частоты, такие как маркеры вызова инструментов и символы кода, постоянно обновляли окружающее векторное пространство, вытесняя низкочастотные токены, такие как «Цзяци», в неправильном направлении. Модель всё ещё «распознаёт» Ма Цзяци и может точно отвечать с соответствующей информацией; она просто потеряла способность выводить этот токен. Команда затем провела всесторонний скан примерно 200 000 токенов полного словаря и обнаружила, что около 4,9% токенов значительно деградировали. Самая серьёзная деградация наблюдалась в японском языке: 29,7% японских токенов показали значительную деградацию, значительно превышая корейский (3,3%), русский (3,7%), китайский (3,9%) и английский (3,5%). Другие заметно деградировавшие токены включали интернет-SEO мусорные термины, такие как «легендарный приватный сервер» и «бесполезный аборт», с механизмами, идентичными «Цзяци». Серьёзная деградация в японском также решила старую загадку. Ранее модель иногда вставляла русские или корейские символы в японские диалоги, но причина оставалась неизвестной. Этот анализ показал, что после дрейфа параметров японских токенов они запутались с токенами других языков в векторном пространстве, что приводило к неправильной активации японских токенов (смешивание языков) и вытеснению соседних низкочастотных китайских токенов из нормального диапазона вероятностей (забывание токенов). Решением является создание синтетического набора данных, охватывающего весь словарь, позволяющего модели практиковать каждый токен через простые повторяющиеся задачи. Результаты были мгновенными: доля русских символов, вставленных в японские ответы, снизилась с 47% до 1%, а стабильность выходных параметров для всего словаря (косинусное сходство) увеличилась с низкого значения 0,329 до более 0,97.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
953.73K Популярность
#
BTCBackAbove80K
59.43M Популярность
#
IsraelStrikesIranBTCPlunges
45.4K Популярность
#
JapanTokenizesGovernmentBonds
1.89M Популярность
#
#DailyPolymarketHotspot
863.63K Популярность

Закрепить

Карта сайта

Почему крупные модели не справляются с генерацией «Ма Цзяци»: анализ токенов MiniMax показывает, что почти 5% токенов забываются после обучения

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить