MiniMax:Análise das causas pelas quais grandes modelos não conseguem gerar o nome "Ma Jiaqi"

robot
Geração de resumo em curso

Notícias do site CoinWorld, a MiniMax publicou um blog técnico, revelando o processo de investigação das causas pelas quais seu grande modelo da série m2 não consegue gerar o nome “马嘉祺”. A investigação começou com um caso específico e, por fim, revelou um problema de degradação sistêmica que afeta todo o vocabulário. A causa raiz foi que o tokenizador, durante o treinamento, combinou “嘉祺” em um token independente. Na fase de pré-treinamento, o modelo viu uma grande quantidade de textos da internet, aprendendo esse token, mas nos dados de diálogo posteriores ao treinamento, havia menos de 5 exemplos contendo “嘉祺”. Durante o pós-treinamento, tokens de alta frequência como marcações tool_call, símbolos de código, etc., continuaram a atualizar o espaço vetorial ao redor, empurrando tokens de baixa frequência como “嘉祺” na direção errada. O modelo ainda “reconhece” 马嘉祺 e consegue responder com precisão às informações relacionadas, mas a capacidade de gerar esse token foi perdida. A equipe então realizou uma varredura completa em um vocabulário de aproximadamente 200 mil tokens, descobrindo que cerca de 4,9% dos tokens apresentaram uma degradação significativa. A degradação mais severa ocorreu no japonês: 29,7% dos tokens em japonês sofreram degradação significativa, muito acima do coreano com 3,3%, russo com 3,7%, chinês com 3,9% e inglês com 3,5%.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar