Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Почему большие модели не могут написать «Ма Цзяци»? Полный скан словаря MiniMax обнаружил, что почти 5% токенов были забыты в последующем обучении
Согласно мониторингу Beating, MiniMax опубликовала технический блог, раскрывающий процесс диагностики причины, по которой их крупная модель серии M2 не может выводить имя «马嘉祺». Диагностика началась с одного конкретного случая и в конечном итоге выявила системную деградацию, затрагивающую весь словарь.
Причиной стала сегментатор (tokenizer, компонент, разбивающий текст на единицы обработки моделью), который во время обучения объединил «嘉祺» в один отдельный токен.
На этапе предварительного обучения модель видел большое количество интернет-текстов и научилась этому токену; однако в последующих диалоговых данных образцов с «嘉祺» было менее 5.
В процессе дообучения высокочастотные токены, такие как метки tool_call, символы кода и другие, постоянно обновляли окружающее векторное пространство, вытесняя такие низкочастотные токены, как «嘉祺», в неправильное направление.
Модель всё ещё «знает» 马嘉祺 и может точно отвечать на связанные вопросы, но потеряла способность выводить этот токен.
Затем команда провела полный скан примерно 200 тысяч токенов в полном словаре и обнаружила, что около 4,9% токенов значительно деградировали.
Самая серьёзная деградация наблюдается в японском языке: 29,7% японских токенов значительно деградировали, что значительно превышает 3,3% корейских, 3,7% русских, 3,9% китайских и 3,5% английских токенов.
В числе наиболее деградировавших также оказались такие интернет-SEO спам-слова, как «传奇私服» и «无痛人流», механизм которых полностью совпадает с «嘉祺».
Тяжёлая деградация японских токенов также раскрыла старую загадку. Ранее модель иногда вставляла русские или корейские символы в японские диалоги, и причина этого оставалась неизвестной.
Анализ показал, что после смещения параметров японских токенов они начали путать векторное пространство с токенами других языков, что приводило к неправильной активации японских токенов (языковая мешанина) и вытеснению соседних низкочастотных китайских токенов за пределы нормальной вероятности (забывание токенов).
Решением стало создание синтетических данных, охватывающих весь словарь, чтобы модель могла тренироваться на простом повторяющем задании до тех пор, пока каждый токен не освоится.
Результат был мгновенным: доля вставок русских символов в японские ответы снизилась с 47% до 1%, а стабильность выходных параметров всего словаря (косинусное сходство) выросла с минимальных 0,329 до более чем 0,97.