广场
最新
热门
资讯
我的主页
发布
新浪开源VibeThinker-3B:推理可压缩,事实知识不能
ME News
2026-06-28 10:28:46
关注
摘要生成中
ME News 消息,6 月 28 日(UTC+8),新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200-333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出"参数压缩-覆盖假说":逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。 🔗 阅读原文:
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
165.75万 热度
#
美光市值超越Meta跻身全美前十
35.57万 热度
#
南非VS加拿大
12.93万 热度
#
美国5月PCE通胀升至4.1%创三年新高
60.4万 热度
#
USD1链上质押享年化9.48%
100.64万 热度
置顶
网站地图
新浪开源VibeThinker-3B:推理可压缩,事实知识不能