10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
为什么大型模型未能生成“马佳琪” :MiniMax的标记分析显示后训练中近5%的标记被遗忘
根据东查贝廷的监测,MiniMax发布了一篇技术博客,披露了其M2系列大型模型无法输出“马嘉祺”这个名字的根本原因调查。
调查从一个具体案例开始,最终揭示了影响整个词汇表的系统性退化问题。
根本原因被确认是分词器(将文本切分成模型处理单元的组件)在训练过程中将“嘉祺”合并为一个独立的标记。
在预训练阶段,模型遇到大量的互联网文本并学习了这个标记;然而,在后续的对话数据中,包含“嘉祺”的样本不到5个。
在后训练阶段,高频标记如工具调用标记和代码符号不断更新周围的向量空间,推动低频标记如“嘉祺”朝错误的方向移动。
模型仍然“识别”马嘉祺,并能准确回应相关信息;它只是失去了输出这个标记的能力。
团队随后对完整词汇表中的大约20万个标记进行了全面扫描,发现约4.9%的标记出现了明显退化。
退化最严重的是日语:29.7%的日语标记表现出显著退化,远高于韩语(3.3%)、俄语(3.7%)、汉语(3.9%)和英语(3.5%)。
其他明显退化的标记还包括互联网SEO垃圾词,如“传奇私服”和“无痛堕胎”,其机制与“嘉祺”相同。
日语的严重退化也解决了一个古老的谜题。
此前,模型偶尔会在日语对话中夹杂俄语或韩语字符,但原因未知。
分析显示,在日语标记参数漂移后,它们与向量空间中其他语言的标记混淆,导致日语标记的激活错误(语言混用)并将邻近的低频汉语标记推离正常概率范围(标记遗忘)。
解决方案是构建一个覆盖全部词汇的合成数据集,让模型通过简单的重复任务练习每个标记。
结果立竿见影:混入日语响应中的俄语字符比例从47%降至1%,
整个词汇表输出参数的稳定性(余弦相似度)从最低的0.329提升到全部超过0.97。