Moonshot AIは、20以上の主要なベンチマークテストでKimi-K2.6をGPT-5.4やClaude Opus 4.6と比較したと述べている。同社の主張によると、新モデルはこれらのトップモデルに対して複数のテストで優位に立つか、差を数ポイント以内に縮めている。
特に、最も厳しい評価の一つとされる「HLE-Full」では、Kimi-K2.6は54点を獲得した。このベンチマークは、100以上の学術分野にわたる約2500の博士レベルの問題で構成されている。Moonshot AIは、同じテストでClaude Opus 4.6が53点、GPT-5.4が52.1点を獲得したと述べている。
文秀AI、オープンソースのLLM「Kimi-K2.6」公開…GPT-5.4と直接比較
中国の人工知能スタートアップ企業Moonshot AIは、最新のオープンソース大型言語モデル(LLM)「Kimi-K2.6」を公開した。同社は、このモデルが主要な人工知能ベンチマークテストでGPT-5.4やClaude Opus 4.6に対して優位またはわずかに遅れをとると述べている。
Kimi-K2.6は、Moonshot AIの「Kimi」シリーズの最新作である。このモデルは、テキストだけでなく画像などのマルチメディア入力も処理できるよう設計されている。Moonshot AIは、効率性と実用的なタスク実行能力に焦点を当てていると特に説明している。これは、回答の質を向上させるだけでなく、構造を最適化し、同じ計算資源を利用してより複雑なタスクを実行できることを意味している。
少ないリソースで性能を向上させる構造が重要
Kimi-K2.6は、「Swiglu」と呼ばれる活性化関数を採用している。これは、従来の方法と比べてハードウェアの利用効率を高め、モデルの訓練過程を部分的に簡素化できる構造だ。この手法は、Meta PlatformsのLlamaシリーズなど複数のオープンソースモデル群にも適用されている。
モデル内部には384の「エキスパート」ネットワークが配置されている。しかし、ユーザーが問題を入力するたびにこれらすべてのネットワークが同時に動作するわけではない。実際に応答を生成する際には、選択的に8つのエキスパートだけが呼び出される。この「エキスパートハイブリッド」方式は、必要な部分だけを活性化させることで、計算量とインフラ負荷を削減するのに役立つ。
さらに、「マルチヘッド潜在注意」技術も搭載されている。これは、注意メカニズムの一種で、提示された情報から重要な部分をより効率的に抽出できる。データをより軽量な数学的表現に圧縮して処理するため、従来の注意構造と比べてハードウェアの要求が低い。
画像理解とエージェント協働機能も強化
Kimi-K2.6には、40億パラメータ規模のビジュアルエンコーダも搭載されている。この装置は、画像をモデルが理解しやすい「埋め込み」形式に変換する。これにより、Kimi-K2.6は文章入力だけでなく、スケッチやビジュアル資料を組み合わせて作業できる。
Moonshot AIによると、このモデルはシンプルなユーザー指示とインターフェースのスケッチだけで、完全なウェブサイトを生成可能だという。より複雑で時間のかかるタスクについては、最大で300のエージェントを協働させて処理できる。これは、各エージェントがタスクを細分化し並列処理を行うことで、逐次処理よりも高速化を実現している。
また、「グループコラボレーション」機能を通じて、人間とエージェントが共同で作業するフローも設計可能だ。Moonshot AIは、これによりプロジェクト内の作業を人間の作業者と人工知能エージェントに割り当てられると説明している。同社は、前世代と比べて、Rustを用いた高難度のプログラミングタスクにおいても性能が向上したと付け加えた。
高難度評価HLE-FullでGPT-5.4をリードと主張
Moonshot AIは、20以上の主要なベンチマークテストでKimi-K2.6をGPT-5.4やClaude Opus 4.6と比較したと述べている。同社の主張によると、新モデルはこれらのトップモデルに対して複数のテストで優位に立つか、差を数ポイント以内に縮めている。
特に、最も厳しい評価の一つとされる「HLE-Full」では、Kimi-K2.6は54点を獲得した。このベンチマークは、100以上の学術分野にわたる約2500の博士レベルの問題で構成されている。Moonshot AIは、同じテストでClaude Opus 4.6が53点、GPT-5.4が52.1点を獲得したと述べている。
今回のリリースは、オープンソース人工知能の競争が激化していることを示している。閉鎖型のトップモデルが依然として市場を支配している一方で、Kimi-K2.6のように効率性とタスク自動化機能を両立させたオープンソースモデルの増加により、企業や開発者の選択肢も多様化している。