摘要：M2大型模型未能输出“Ma Jiaqi”，原因是分词器在训练过程中将“Jiaqi”合并为一个词元；训练后的数据稀疏导致词元漂移，尤其在日语中更为明显。通过合成再训练修正了漂移，并恢复了稳定性。摘要：本文总结了对MiniMax的M2大型模型为何未能生成“Ma Jiaqi”这一词元的调查。根本原因在于训练期间的分词器词元合并，并叠加了训练后数据稀缺所引发的词元漂移与语言混杂问题，尤其是在日语中。对约200,000个词元进行的全面扫描显示，整体存在普遍退化现象，其中日语受影响最严重。补救措施是构建一个合成的、全词表的训练数据集，使每个词元都能得到充分练习。再训练之后，跨语言污染显著下降（日语回复中的俄语字符占比从47%降至1%），词表向量空间的稳定性（余弦相似度）从0.329提升至0.97以上。

空投黑洞

2026-05-09 09:11:17

摘要生成中

根据东查贝廷的监测，MiniMax发布了一篇技术博客，披露了其M2系列大型模型无法输出“马嘉祺”这个名字的根本原因调查。
调查从一个具体案例开始，最终揭示了影响整个词汇表的系统性退化问题。
根本原因被确认是分词器（将文本切分成模型处理单元的组件）在训练过程中将“嘉祺”合并为一个独立的标记。
在预训练阶段，模型遇到大量的互联网文本并学习了这个标记；然而，在后续的对话数据中，包含“嘉祺”的样本不到5个。
在后训练阶段，高频标记如工具调用标记和代码符号不断更新周围的向量空间，推动低频标记如“嘉祺”朝错误的方向移动。
模型仍然“识别”马嘉祺，并能准确回应相关信息；它只是失去了输出这个标记的能力。
团队随后对完整词汇表中的大约20万个标记进行了全面扫描，发现约4.9%的标记出现了明显退化。
退化最严重的是日语：29.7%的日语标记表现出显著退化，远高于韩语（3.3%）、俄语（3.7%）、汉语（3.9%）和英语（3.5%）。
其他明显退化的标记还包括互联网SEO垃圾词，如“传奇私服”和“无痛堕胎”，其机制与“嘉祺”相同。
日语的严重退化也解决了一个古老的谜题。
此前，模型偶尔会在日语对话中夹杂俄语或韩语字符，但原因未知。
分析显示，在日语标记参数漂移后，它们与向量空间中其他语言的标记混淆，导致日语标记的激活错误（语言混用）并将邻近的低频汉语标记推离正常概率范围（标记遗忘）。
解决方案是构建一个覆盖全部词汇的合成数据集，让模型通过简单的重复任务练习每个标记。
结果立竿见影：混入日语响应中的俄语字符比例从47%降至1%，
整个词汇表输出参数的稳定性（余弦相似度）从最低的0.329提升到全部超过0.97。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
94.54万热度
#
BTC重返8万
5943.27万热度
#
日本国债上链24小时交易
189.7万热度
#
韩国加密征税倒计时
254.42万热度
#
Polymarket每日热点
86.27万热度

为什么大型模型未能生成“马佳琪” ：MiniMax的标记分析显示后训练中近5%的标记被遗忘

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶