廣場
最新
熱門
新聞
我的主頁
發布
新浪開源VibeThinker-3B:推理可壓縮,事實知識不能
ME News
2026-06-28 10:28:46
關注
摘要生成中
ME News 消息,6 月 28 日(UTC+8),新浪發布僅3B參數的VibeThinker-3B,在AIME26等數學編程基準上持平DeepSeek V3.2等大200-333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode競賽解決123/128題超過GPT-5.2、Kimi K2.5等。但知識密集型GPQA-Diamond大幅落後。模型基於阿里Qwen2.5-Coder-3B,經SFT、強化學習、自蒸餾等多階段後訓練。研究提出「參數壓縮-覆蓋假說」:邏輯推理依賴少數可壓縮模式,而廣泛世界知識仍需大參數。模型已開源。 🔗 閱讀原文:
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
165.75萬 熱度
#
美光市值超越Meta躋身全美前十
35.57萬 熱度
#
南非VS加拿大
12.93萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
60.4萬 熱度
#
USD1鏈上質押享年化9.48%
100.64萬 熱度
已置頂
網站地圖
新浪開源VibeThinker-3B:推理可壓縮,事實知識不能