据动察 Beating 监测，MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表的系统性退化问题。根因是分词器（tokenizer，将文字切分为模型处理单元的组件）在训练时将「嘉祺」合并成了一个独立 token。预训练阶段模型见过大量互联网文本，学会了这个 token；但后训练的对话数据中，包含「嘉祺」的样本不到 5 条。后训练过程中，tool_call 标记、代码符号等高频 token 持续更新周围的向量空间，把「嘉祺」这类低频 token 挤到了错误的方向。模型仍然「认识」马嘉祺，能准确回答相关信息，丢失的只是输出这个 token 的能力。团队随后对约 20 万 token 的完整词表做了全量扫描，发现约 4.9% 的 token 发生了显著退化。退化最严重的是日语：29.7% 的日语 token 显著退化，远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词，机制与「嘉祺」完全相同。日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符，一直找不到原因。这次分析表明，日语 token 参数漂移后与其他语言的 token 在向量空间中混淆，既导致日语 token 被错误激活（语言混杂），也把相邻的低频中文 token 挤出正常概率范围（token 遗忘）。修复方案是构造一份覆盖全词表的合成数据，让模型用简单的复读任务练到每个 token。效果立竿见影：日语回答中混入俄文字符的比例从 47% 降至 1%，全词表输出参数稳定度（余弦相似度）从最低 0.329 升至全部高于 0.97。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
95.39万热度
#
BTC重返8万
5943.45万热度
#
日本国债上链24小时交易
189.84万热度
#
韩国加密征税倒计时
254.43万热度
#
Polymarket每日热点
86.36万热度

大模型为什么写不出「马嘉祺」？MiniMax全词表扫描发现近5%的Token在后训练中被遗忘

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶