「世界一賢い」GROK3のテスト:それは本当にモデルの境界効果の終着点なのか?

北京時間2月18日、マスクとxAIチームは、ライブ中に正式にGrok最新バージョンGrok3をリリースしました。

今回の発表会の前から、さまざまな関連情報のリリースに加え、マスク自身が24時間365日休まずに煽りを続け、世界中の人々はGrok3に対する期待値を前代未聞のレベルに引き上げました。1週間前、マスクはDeepSeek R1についてライブ中にコメントし、「xAIがより優れたAIモデルをリリースする」と自信を持って述べました。

現地のデータによると、Grok3 は数学、科学、プログラミングのベンチマークテストで既存の主要モデルをすでに凌駕しており、マスクはさらに、Grok 3 が将来 SpaceX の火星ミッション計算に使用され、"3年以内にノーベル賞級のブレークスルーを実現する"と予測しています。

しかし、これらは現時点ではすべてマスク氏の一方的な主張にすぎません。 筆者は公開後、最新のベータ版Grok3をテストし、大規模モデルを困らせるための古典的な問題、「9.11と9.9のどちらが大きいですか?」を提起しました。

残念ながら、現時点で最も賢いとされるGrok3でも、どんな修飾語や注釈もなしには、この問題に正しく答えることができません。

Grok3 はこの問題の意味を正確に認識していませんでした | 画像出典: 极客公园

このテストが公開されてから間もなく、多くの友人の関心を引きました。偶然にも、海外でも同様のテストが多く行われており、「ピザの斜塔にある2つのボールのうち、どちらが先に落ちるか」などの基本的な物理/数学の問題に対処できないことがわかりました。そのため、「天才は簡単な質問に答えたくない」という冗談が生まれました。

GROK3の実地テストでは多くの一般常識的な問題で「翻车」が発生しました | 画像の出典:X

ユーザーが自発的にテストしたこれらの基本的な知識以外にも、Grok3には失敗があり、xAIの発表会のライブ配信で、マスクはGrok3を使用して、自称頻繁にプレイするというPath of Exile 2 (の職業と昇華効果を分析しましたが、実際にはGrok3のほとんどの回答は間違っていました。ライブ配信中のマスクは、この明らかな問題に気づいていませんでした。

Grok3はライブ配信中に大量の誤ったデータを提供する場合もあります | 画像出典:X

したがって、この失敗は、海外のユーザーによる再びマスクがゲームをプレイすることに関する揶揄の証拠となっただけでなく、Grok3の実用性について大きな疑問符を付けることになりました。

このような「天才」に関して、実際の能力がどの程度であるかにかかわらず、将来火星探査などの非常に複雑なアプリケーションシナリオに使用される場合、信頼性には大きな疑問符が付けられる必要があります。

現在、数週間前にGrok3のテスト資格を取得し、昨日数時間しか使っていないモデル能力テスターの多くは、Grok3の現在のパフォーマンスについて同じ結論に至っています:

「Grok3 は良いですが、R1 または o1-Pro よりも良いわけではありません」

「Grok3は良いですが、それはR1やo1-Proよりも優れているわけではありません」| 画像出典:X

Grok3 は公式のPPTで、大規模なモデル競技場Chatbot Arenaにおいて「はるかに先行している」と実現していますが、実際にはいくつかの小さなグラフィックテクニックも使用されています:リストの縦軸には1400-1300の区間のランキングのみが表示され、本来1%のテスト結果の差が、このPPTのプレゼンテーションでは非常に明確になっています。

公式のPPTにおける「遥かにリード」の効果 | 画像出典:X

実際のモデルの実行結果では、Grok3はDeepSeek R1およびGPT4.0と比較してわずか1-2%の差しかないことがわかりました。これにより、多くのユーザーが実際のテストで「明らかな違いはない」と感じています。

実際のGrok3は、後続のものより1%〜2%高いだけです|画像ソース:X

また、スコアにおいては、Grok3 は現在公開されているすべてのモデルを超えていますが、それは多くの人には認められていません:なぜなら、xAI は Grok2 時代からこのランキングでスコアを上げていたからです。しかし、回答の長さやスタイルに対するランキングの重み付けが軽減されると、スコアが大幅に低下したため、しばしば業界関係者から「高得点低能力」と批判されています。

ランキングでの「ポイント獲得」や画像デザイン上の「小技」など、これらは XAI およびマスク氏自身がモデルの能力に対して「はるかにリードしている」という執念を示しています。

そして、これらの差異を埋めるため、マスクが支払った代償は非常に高額であると言える:発表会で、マスクはほぼ自慢げな口調で、20万枚のH100(マスクはライブ中に「10万枚以上」使用したと述べています)を使用してGrok3をトレーニングし、総トレーニング時間は20億時間に達したと述べました。これにより、一部の人々はこれがGPU産業にとってさらなる大きな利益であると感じ、DeepSeekが産業にもたらす衝撃は「愚か」だと考えています。

多くの人々は、パワフルなコンピューティングリソースがモデルトレーニングの未来になると考えています | 画像出典:X

しかし、実際には、2000枚のH800を使用して2ヶ月間トレーニングしたDeepSeek V3を比較したユーザーが、Grok3の実際のトレーニングコストがV3の263倍であることを計算しました。そして、大規模モデル競技場のランキングで、1402ポイントを獲得したGrok3との差は、たった100ポイントにも満たないのです。

これらのデータが公開されると、多くの人々が急速に気付いたのは、Grok3が「世界最強」に到達する背後には、モデルが大きくなれば性能も向上するという明確な限界効果が既に現れているという論理があるということです。

「高得点で低能力」のGrok2でさえ、その背後にはX(Twitter)プラットフォーム内の豊富な高品質なファーストパーティデータが支えとして使用されています。そして、Grok3のトレーニングでは、xAIも現在OpenAIが直面している「天井」に直面することになります-優れたトレーニングデータの不足により、モデルの能力の限界効果が迅速に露出します。

これらの事実に最初に気付き、最も深く理解しているのは、間違いなくGrok3の開発チームとマスクでしょう。そのため、マスクはソーシャルメディアで、ユーザーが体験しているバージョンは「まだテスト版に過ぎない」「完全版は数ヶ月以内にリリースされる予定」と繰り返し述べています。マスク自身はGrok3の製品マネージャーとして活躍し、ユーザーには使用中に遭遇したさまざまな問題について直接コメント欄でフィードバックすることを提案しています。

彼はおそらく地球上で最も多くのファンを持つプロダクトマネージャーです | 画像出典:X

しかし、たった1日で、Grok3のパフォーマンスは、明らかに「大力飛び石」トレーニングに頼ってより強力な大規模モデルを開発する後続者に警鐘を鳴らしました。Microsoftの公開情報によると、OpenAI GPT4のパラメータ容量は1.8兆であり、GPT3と比較して10倍以上向上しており、噂されているGPT4.5のパラメータ容量はさらに大きくなる可能性があります。

モデルパラメータのボリュームが急増する一方、トレーニングコストも急上昇しています | 画像出典:X

Grok3が前にいると、GPT4.5やその他の「お金を燃やしたい」と考えている人たちは、より良いモデルの性能を得るためにパラメータのボリュームを増やすことを考えなければならないが、すでに目前に迫っている天井をどのように突破するかを考える必要がある。

この時、OpenAIの元最高科学者Ilya Sutskeverは去年12月に「我々が知っている事前トレーニングは終わるだろう」と述べ、再び注目され、大規模モデルのトレーニングの真の出口を見つけようとしています。

Ilyaの見解は、業界に警鐘を鳴らしました | 画像出典:X

彼時、Ilyaは、利用可能な新しいデータが枯渇しており、モデルのパフォーマンスを向上させるために新しいデータを取得することが困難になっている状況を正確に予測しました。この状況は化石燃料の消費に例えられ、「石油が限られた資源であるように、人間が生成するインターネット上のコンテンツも限られている」と表現されています。

Sutskeverの予測では、事前トレーニングモデルの次世代モデルは「本当の自律性」を持つようになるでしょう。同時に「人間の脳に似た」推論能力も備えることになります。

今後のAIシステムは、現在の事前トレーニングモデルが依存している内容(モデルが以前に学んだ内容に基づく)とは異なり、問題解決の方法論を段階的に学習し構築する能力を持つようになります。

人間がある学問に基本的な習熟を達成するには、基本的な専門書が必要ですが、AIの大規模モデルでは、基本的な入門効果を実現するには数百万のデータを学習する必要があります。質問の形式を変えた場合、これらの基本的な問題も正しく理解できないかもしれません。モデルは実際の知能に向上していません:記事の冒頭で言及されている基本的なが、Grok3でも正しく回答できない質問が、この種の現象の直感的な表れです。

しかし、「力大飞砖」の外において、Grok3 が本当に業界に「事前トレーニングモデルが終わりに近づいている」という事実を明らかにできるなら、それは依然として業界に重要な示唆を与えるものと言える。

おそらく、Grok3の熱が徐々に収まった後、李飛飛氏の「特定のデータセットを基に50ドルで高性能モデルを微調整する」など、さらに多くの類似した事例が現れるかもしれません。そして、これらの探求を通じて、最終的にAGIへの真の道を見つけるかもしれません。

GROK0.82%
XAI0.76%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)