MiniMax @MiniMax_AI responde com um texto longo à afirmação de que “o modelo não consegue falar Ma Jiaqi”


A conta oficial do MiniMax publicou uma resposta detalhada sobre o fato de que o modelo da série M2 não consegue falar Ma Jiaqi, fornecendo um processo completo de investigação do problema de “reconhecimento de Jiaqi” e reflexões técnicas. ⬇️
MiniMax afirmou que realizou investigações em múltiplos aspectos, incluindo alinhamento da versão do tokenizador, distribuição estatística de embeddings, busca por vizinhos semânticos próximos, experimentos de comparação entre modelos pré-treinados e pós-treinados com poucos exemplos, estatísticas de frequência dos dados pós-treinamento e variações na magnitude da mudança do lm_head para toda a tabela de vocabulário, entre outros.
A causa final identificada foi: “Ma Jiaqi” foi consolidado como um token independente no tokenizador, mas esse token apareceu com frequência extremamente baixa nos dados de pós-treinamento, levando o modelo a gradualmente esquecer sua capacidade de gerar esse token durante o pós-treinamento.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar