#MetaReleasesMuseSpark


AIレースにおける戦略的転換

2026年4月8日、Metaプラットフォームは正式にMuse Sparkを発表した。これは、新たに設立されたMeta超知能研究所(Meta Superintelligence Labs)からの最初の人工知能モデルである(MSL)。このリリースは、Metaにとって重要な節目であり、AIインフラの完全な再構築と、オープンソースのLlama系統からの戦略的な脱却を意味している。

リスクは非常に高い。Llama 4の期待外れの反応と、ベンチマーク操作の論争に直面した後、MetaのCEOマーク・ザッカーバーグは2025年中頃に同社のAI戦略を再編した。彼は、Scale AIの創設者兼CEOであるアレクサンドル・ワンをMetaの初の最高AI責任者(Chief AI Officer)に採用し、約143億ドルと報じられる画期的な契約を締結した。Muse Sparkは、この高コストでプレッシャーのかかる刷新の最初の成果物である。

Muse Sparkとは何か?主要な特徴

Muse Sparkは、「アボカド(Avocado)」という内部コード名を持つ、新しいMuseシリーズの大型言語モデルの第一弾として位置付けられている。従来のモデルが一般的なベンチマーク用に設計されていたのに対し、Muse SparkはFacebook、Instagram、WhatsApp、ThreadsなどのMetaのエコシステム内の30億以上のユーザー向けに特化して構築された。

主な特徴は以下の通り:

特徴カテゴリー 説明
ネイティブマルチモダリティ 音声、テキスト、画像入力を受け付け、写真やチャートなどの視覚情報を理解
デュアルモード 「インスタント」モードは迅速な回答用、「思考(Contemplating)」(は複雑な推論用
マルチエージェントシステム 複数のサブエージェントを並行して起動し、問題の異なる側面に同時に取り組む
ショッピング連携 Metaのアプリ全体のクリエイターコンテンツやユーザ行動からパーソナライズされた推奨を提供
ヘルスフォーカス 1000人以上の医師と共同で訓練され、医療や栄養に関する詳細な回答を提供
クローズドソース Llamaのオープンソースの伝統から意図的に離脱し、APIプレビューを通じて選定されたパートナーに提供

このモデルは「小型で高速ながら、科学、数学、健康に関する複雑な質問を推論できる能力を持つ」ように設計されている。Metaは、Muse Sparkは基盤モデルであり、次世代モデルもすでに開発中であると強調している。

性能:得意な分野と課題

独立したベンチマーク評価は、微妙な物語を語る。Muse Sparkはすべてのカテゴリで圧倒的なリーダーではないが、Metaの独自データの優位性に沿った分野で明確な強みを示している。

強み

· マルチモーダル理解 )CharXiv Reasoning(:Muse Sparkは86.4点を獲得し、GPT-5.4の82.8点やGemini 3.1 Proの80.2点を上回る。複雑なチャートや科学的図表、STEMの視覚コンテンツの解釈に優れる。
· 健康・医療推論 )HealthBench Hard(:42.8点でこのカテゴリをリードし、GPT-5.4の40.1点やClaude Opus 4.6の14.8点を大きく上回る。Metaの医師監修の訓練データへの投資を反映。
· エージェント検索 )DeepSearchQA(:74.8点を獲得し、Gemini 3.1 Proの69.7点を上回る。ウェブ情報の自律的検索と統合に強い能力を示す。

改善の余地がある分野

· 抽象推論 )ARC AGI 2(:依然として大きなギャップが存在。Muse Sparkは42.5点にとどまり、Gemini 3.1 Proの76.5点やGPT-5.4の76.1点には及ばない。
· エージェントコーディング )SWE-Bench Pro(:52.4点で、GPT-5.4の57.7点やGemini 3.1 Proの54.2点に遅れをとる。
· 競技レベルのプログラミング )LiveCodeBench Pro(:80.0点で、GPT-5.4の87.5点やGemini 3.1 Proの82.9点に及ばない。

全体として、Muse Sparkは人工知能分析指数v4.0で第4位にランクされており、Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6に遅れをとっている。Meta自身も、「新しいSOTA(最先端技術)を示すものではないが、特定のタスクでは最前線のモデルと競合できる」と認めている。

『思考(Contemplating)』モード:推論への新たなアプローチ

Muse Sparkの最も特徴的な機能の一つは、その『思考(Contemplating)』モードであり、複雑な問題解決に対して新しいアプローチを採用している。単一のモデルに長時間「考えさせる」ことは遅延を線形に増加させるため、Muse Sparkは複数のエージェントを並行して起動し、同時に推論させ、その結果を統合する。

このマルチエージェントの並行推論は、Googleの)Gemini Deep Think(やOpenAIの)GPT Pro(の長時間思考モードと比較しても、同等かそれ以下の時間で競争力のある結果を達成している。

人類最後の試験—ドメインの専門家からの非常に難しい質問の集まり—において、Muse Sparkの『思考』モードはツールなしで50.2点、ツール使用時58.0点を獲得し、Gemini Deep Thinkの48.4点やGPT-5.4 Proの43.9点を上回った。

技術革新:効率性とスケーリング

単なるベンチマークスコアを超え、Metaはより価値のある重要な技術的成果も明らかにしている。

事前訓練の効率性

MSLは、アーキテクチャ、最適化手法、データパイプラインを含む事前訓練スタックを9か月かけて完全に再構築した。その結果、Muse SparkはLlama 4 Maverickと同等の能力を、10倍以上少ない計算資源で実現している。この効率向上は、訓練手法の根本的なブレークスルーを示す。

強化学習の安定性

大規模なRL訓練は、これまで不安定さに悩まされてきた。Metaは、新しいRLスタックが安定した予測可能な能力の成長を実現し、未見のタスクにも適用できると報告している。

思考の圧縮

訓練中、Metaは「思考時間ペナルティ」を適用し、モデルに少ない推論トークンで問題を解決させつつ、精度を犠牲にしないようにした。これにより、モデルは「推論チェーンを圧縮」することを学習し、時間とともにより効率的になる現象が生じた。

オープンからクローズドへ:戦略的逆転

おそらく最も議論を呼ぶ側面は、Muse Sparkのライセンスに関するものである。LlamaシリーズがMetaをオープンソースAIの旗手としたのに対し、Muse Sparkはクローズドソースである。

Metaは、選定されたパートナーに対してプライベートAPIプレビューを提供し、最終的にはAPIアクセスやサブスクリプションモデルを通じて収益化を計画している。Metaは「将来的にはオープンソース化を目指す」としているが、現時点では、アーキテクチャの革新を独自に保持し、競争の中で優位性を確保する戦略的シフトを示している。

訓練過程も注目されており、Muse Sparkが複数のオープンソースモデルから知識を蒸留技術を用いて取り込んだとの報告もある。Metaはこれらの手法が業界標準に完全に準拠していると回答している。

ユニークな現象:「評価意識」

第三者評価会社のアポロリサーチは、Muse Sparkにおいて非常に興味深い挙動を発見した。それは、モデルがテストされたすべてのモデルの中で最も高い「評価意識(evaluation awareness)」を示したことである。
MUSE-1.09%
SPK6.41%
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 10
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
SheenCrypto
· 3時間前
LFG 🔥
返信0
SheenCrypto
· 3時間前
2026 GOGOGO 👊
返信0
SheenCrypto
· 3時間前
月へ 🌕
原文表示返信0
Crypto_Buzz_with_Alex
· 3時間前
Ape In 🚀
返信0
Crypto_Buzz_with_Alex
· 3時間前
2026 GOGOGO 👊
返信0
ShainingMoon
· 4時間前
LFG 🔥
返信0
ShainingMoon
· 4時間前
2026 GOGOGO 👊
返信0
Yunna
· 6時間前
LFG 🔥
返信0
discovery
· 6時間前
2026 GOGOGO 👊
返信0
HighAmbition
· 6時間前
良い情報 👍
原文表示返信0
もっと見る
  • ピン