深潮 TechFlow 消息,6 月 30 日,據美團官方發布,美團正式推出新一代大模型 LongCat-2.0 並同步開源。該模型總參數達 1.6T,是業界首個在五萬卡國產算力集群上完成全流程訓練與推理的萬億參數模型,原生支持 1M 超長上下文,核心聚焦 Agentic Coding 場景下的程式碼理解、生成與執行。
技術層面,LongCat-2.0 採用 LongCat Sparse Attention(LSA)稀疏注意力機制,將長文本計算量從平方級降至線性級;通過零計算專家機制實現 token 級動態激活(33B~56B);並引入 MOPD 架構融合 Agent、Reasoning、Interaction 三組專家能力。訓練效率方面,團隊歷經三年攻克國產算力適配難題,月均日故障率降低 70% 以上,訓練 MFU 提升 1.5 倍,穩態日吞吐超 1T tokens/day。
性能評測方面,LongCat-2.0 在 SWE-bench Pro 中獲得 59.5 分,超越 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)及 Claude Opus 4.6(57.3);在 BrowseComp 中獲得 79.9 分,達到前沿閉源模型水平。
36.4萬 熱度
872.94萬 熱度
49.86萬 熱度
2202.54萬 熱度
101.55萬 熱度
美團發佈萬億參數大模型 LongCat-2.0,首個在國產算力集群完成全流程訓練的萬億參數模型
深潮 TechFlow 消息,6 月 30 日,據美團官方發布,美團正式推出新一代大模型 LongCat-2.0 並同步開源。該模型總參數達 1.6T,是業界首個在五萬卡國產算力集群上完成全流程訓練與推理的萬億參數模型,原生支持 1M 超長上下文,核心聚焦 Agentic Coding 場景下的程式碼理解、生成與執行。
技術層面,LongCat-2.0 採用 LongCat Sparse Attention(LSA)稀疏注意力機制,將長文本計算量從平方級降至線性級;通過零計算專家機制實現 token 級動態激活(33B~56B);並引入 MOPD 架構融合 Agent、Reasoning、Interaction 三組專家能力。訓練效率方面,團隊歷經三年攻克國產算力適配難題,月均日故障率降低 70% 以上,訓練 MFU 提升 1.5 倍,穩態日吞吐超 1T tokens/day。
性能評測方面,LongCat-2.0 在 SWE-bench Pro 中獲得 59.5 分,超越 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)及 Claude Opus 4.6(57.3);在 BrowseComp 中獲得 79.9 分,達到前沿閉源模型水平。