Resumo: O modelo M2 não conseguiu gerar 'Ma Jiaqi' porque o tokenizador fundiu 'Jiaqi' em um token durante o treino; a escassez de dados pós-treino causou deriva de tokens, especialmente em japonês. Uma retrainamento sintético corrigiu a deriva e restaurou a estabilidade.Resumo: Este artigo resume uma investigação sobre por que os grandes modelos M2 da MiniMax não conseguiram produzir o token 'Ma Jiaqi'. A causa raiz foi a fusão de tokens pelo tokenizador durante o treino, agravada pela escassez de dados pós-treino que levou à deriva de tokens e mistura de línguas, especialmente em japonês. Uma varredura abrangente de cerca de 200.000 tokens mostrou degradação generalizada, sendo o japonês o mais afetado. A solução foi criar um conjunto de dados de treino sintético, com vocabulário completo, para que cada token pudesse ser praticado. Após o retrainamento, a contaminação entre línguas caiu drasticamente (caracteres russos em respostas em japonês caíram de 47% para 1%) e a estabilidade do espaço vetorial do vocabulário (similaridade do cosseno) aumentou de 0,329 para acima de 0,97.

AirdropBlackHole

2026-05-09 09:11:17

Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, a MiniMax publicou um blog técnico divulgando a investigação da causa raiz da incapacidade do seu modelo grande da série M2 de gerar o nome ‘Ma Jiaqi’. A investigação começou a partir de um caso específico e, por fim, revelou um problema de degradação sistêmica que afetava todo o vocabulário. A causa raiz foi identificada como o tokenizador (um componente que segmenta o texto em unidades para o processamento do modelo) que mesclou ‘Jiaqi’ em um token independente durante o treino. Na fase de pré-treinamento, o modelo encontrou uma grande quantidade de texto da internet e aprendeu esse token; no entanto, nos dados de diálogo pós-treinamento, havia menos de 5 amostras contendo ‘Jiaqi’. Durante o pós-treinamento, tokens de alta frequência, como marcadores de chamada de ferramenta e símbolos de código, atualizaram continuamente o espaço vetorial ao redor, empurrando tokens de baixa frequência, como ‘Jiaqi’, na direção errada. O modelo ainda ‘reconhece’ Ma Jiaqi e pode responder com precisão com informações relacionadas; ele simplesmente perdeu a capacidade de gerar esse token. A equipe então realizou uma varredura abrangente de aproximadamente 200.000 tokens em todo o vocabulário e constatou que cerca de 4,9% dos tokens apresentaram degradação significativa. A degradação mais severa foi observada no japonês: 29,7% dos tokens japoneses mostraram degradação significativa, muito acima do coreano (3,3%), russo (3,7%), chinês (3,9%) e inglês (3,5%). Outros tokens notavelmente degradados incluíam termos de lixo de SEO da internet, como ‘servidor privado lendário’ e ‘aborto indolor’, com mecanismos idênticos aos de ‘Jiaqi’. A severa degradação no japonês também resolveu um antigo mistério. Anteriormente, o modelo ocasionalmente misturava caracteres russos ou coreanos em diálogos em japonês, mas a causa era desconhecida. Essa análise indicou que, após o deslocamento dos parâmetros dos tokens japoneses, eles ficaram confusos com tokens de outras línguas no espaço vetorial, levando à ativação incorreta de tokens japoneses (mistura de idiomas) e empurrando tokens chineses adjacentes para fora do intervalo de probabilidade normal (esquecimento de tokens). A solução é construir um conjunto de dados sintético que cubra todo o vocabulário, permitindo que o modelo pratique cada token por meio de tarefas simples de repetição. Os resultados foram imediatos: a proporção de caracteres russos misturados nas respostas em japonês caiu de 47% para 1%, e a estabilidade dos parâmetros de saída para todo o vocabulário (similaridade do cosseno) aumentou de um mínimo de 0,329 para todos acima de 0,97.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
945.1K Popularidade
#
BTCBackAbove80K
59.43M Popularidade
#
IsraelStrikesIranBTCPlunges
45.32K Popularidade
#
JapanTokenizesGovernmentBonds
1.89M Popularidade
#
#DailyPolymarketHotspot
862.69K Popularidade

Fixar

Por que os Grandes Modelos Falham em Gerar 'Ma Jiaqi': A Análise de Tokens do MiniMax Revela Quase 5% dos Tokens Esquecidos após o Treinamento

Tópicos em destaque

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Fixar