新浪テクノロジー通信 3月18日午後のニュースです。MiniMaxは新世代のエージェントフラッグシップ大規模モデルM2.7を発表し、同モデルがAgent Harnessシステムを構築することで、自身の訓練と最適化プロセスに深く関与し、一部の研究開発シナリオにおいて30%から50%の作業量を担うことができ、内部評価セットで約30%の性能向上を実現したと発表しました。 コア能力において、M2.7はSWE-bench Proで56.22%の成績を収め、国際的な一線レベルに近づいています。また、VIBE-ProやTerminal Bench 2などの実際のエンジニアリングテストでも優れたパフォーマンスを示し、エンドツーエンドのプロジェクト納品や複雑なシステム理解をサポートします。オフィスシナリオでは、GDPval-AAのELOスコアは1495で、オープンソースの最高値であり、Officeドキュメントの処理や多回編集能力も大きく向上しています。 現在、M2.7はMiniMaxエージェントおよびオープンプラットフォームでグローバルに展開されています。(文猛)
MiniMax新世代大規模言語モデルM2.7を発表
新浪テクノロジー通信 3月18日午後のニュースです。MiniMaxは新世代のエージェントフラッグシップ大規模モデルM2.7を発表し、同モデルがAgent Harnessシステムを構築することで、自身の訓練と最適化プロセスに深く関与し、一部の研究開発シナリオにおいて30%から50%の作業量を担うことができ、内部評価セットで約30%の性能向上を実現したと発表しました。
コア能力において、M2.7はSWE-bench Proで56.22%の成績を収め、国際的な一線レベルに近づいています。また、VIBE-ProやTerminal Bench 2などの実際のエンジニアリングテストでも優れたパフォーマンスを示し、エンドツーエンドのプロジェクト納品や複雑なシステム理解をサポートします。オフィスシナリオでは、GDPval-AAのELOスコアは1495で、オープンソースの最高値であり、Officeドキュメントの処理や多回編集能力も大きく向上しています。
現在、M2.7はMiniMaxエージェントおよびオープンプラットフォームでグローバルに展開されています。(文猛)