Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Почему большие модели не могут написать «Ма Цзяци»? Полный скан словаря MiniMax обнаружил, что почти 5% токенов были забыты в последующем обучении.
Согласно мониторингу Beating, MiniMax опубликовала технический блог, раскрывающий процесс диагностики причины, по которой крупная модель серии M2 не может выводить имя «马嘉祺». Диагностика началась с одного примера и в конечном итоге выявила системную деградацию, затронувшую весь словарь.
Причиной стала сегментатор (tokenizer, компонент, разбивающий текст на единицы обработки модели), который во время обучения объединил «嘉祺» в отдельный токен. В этапе предварительного обучения модель видел большое количество интернет-текстов и научилась этому токену; однако в последующих диалоговых данных образцов с «嘉祺» было менее 5. В процессе дообучения, высокочастотные токены, такие как метки tool_call и символы кода, постоянно обновляли окружащее векторное пространство, вытесняя такие низкочастотные токены, как «嘉祺», в неправильное направление. Модель всё ещё «знает» 马嘉祺 и может точно отвечать на связанные вопросы, но потеряла способность выводить этот токен.
Затем команда провела полный скан всего словаря из около 200 тысяч токенов и обнаружила, что примерно 4.9% токенов значительно деградировали. Самая серьёзная деградация наблюдается в японском языке: 29.7% японских токенов значительно деградировали, что значительно превышает 3.3% корейских, 3.7% русских, 3.9% китайских и 3.5% английских токенов. Среди наиболее деградировавших также оказались такие интернет-SEO спам-слова, как «传奇私服» и «无痛人流», механизм которых полностью совпадает с «嘉祺».
Тяжёлая деградация японских токенов также раскрыла старую загадку. Ранее модель иногда случайно вставляла русские или корейские символы в японские диалоги, и причина этого оставалась неясной. Анализ показал, что после смещения параметров японских токенов они начали путатьс в векторном пространстве с токенами других языков, что приводило как к неправильной активации японских токенов (языковая смесь), так и к вытеснению соседних низкочастотных китайских токенов за пределы нормальной вероятности (забывание токенов).
Решением стало создание синтетических данных, охватывающих весь словарь, чтобы модель тренировалась на простом повторяющем задании до тех пор, пока не освоит каждый токен. Результат был мгновенным: доля случаев, когда в ответах на японском появлялись русские символы, снизилась с 47% до 1%, а стабильность выходных параметров всего словаря (косинусное сходство) выросла с минимальных 0.329 до более чем 0.97.