美团 lança o modelo de grande porte com trilhões de parâmetros LongCat-2.0, o primeiro modelo com trilhões de parâmetros treinado em todo o fluxo em cluster de computação nacional.

robot
Geração do resumo em andamento

深潮 TechFlow 消息,6 月 30 日,据美团官方发布,美团正式推出新一代大模型 LongCat-2.0 并同步开源。该模型总参数达 1.6T,是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,原生支持 1M 超长上下文,核心聚焦 Agentic Coding 场景下的代码理解、生成与执行。

技术层面,LongCat-2.0 采用 LongCat Sparse Attention(LSA)稀疏注意力机制,将长文本计算量从平方级降至线性级;通过零计算专家机制实现 token 级动态激活(33B~56B);并引入 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力。训练效率方面,团队历经三年攻克国产算力适配难题,月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。

性能评测方面,LongCat-2.0 在 SWE-bench Pro 中获得 59.5 分,超越 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)及 Claude Opus 4.6(57.3);在 BrowseComp 中获得 79.9 分,达到前沿闭源模型水平。

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado