OpenAI崩壊!Scaling lawの原著にバグ発覚、数兆の計算力が無駄に。

OpenAIは何年もの間、AI業界全体を誤った方向に導いてきた!

過去5年間、AI業界全体がスケーリング則(Scaling Law)に突き動かされてきた。

オルトマンがAGIを確信する根拠は、まさにこの曲線にあった。

今、ある人物が立ち上がり、この曲線は最初から間違っていたと主張している。

後知恵ではない。そう言ったのは、当時OpenAIで大規模モデルの最適化に携わっていた研究者Diogo Almeidaだ。

彼は先ほど、冷徹なタイトルのブログ記事「Scaling Laws, Honestly」を公開した。

冒頭でずばり言い切った:最初のスケーリング則は間違っていた。バグがあったからだ。

リンク:https://www.completeskeptic.com/p/scaling-laws-honestly

DeepMindで拡散モデルで名高いSander Dielemanは、すぐにツイッターでこれを拡散し、「興味深いLLMの過去の話だ」と述べた。

オリジナルのスケーリング則はバグで間違っており、業界は「規模が大きすぎて訓練不足」のモデルに莫大な計算リソースを無駄に費やした可能性が高い。

たった一つのバグで、2年が無駄になった。

バグが露呈したとき、私たちが見たのは計算リソースのブラックホールだけでなく、言語自体によって再形成された、想像以上に深い知能の境界線だった。

スケーリング則はLLM版「天動説」だった


2020年、OpenAIは結論を出した:固定の計算予算の下では、より多くのデータを与えるよりも、まずモデルを大きくすべきだ。

式で言えば、最適なパラメータ数は計算量の0.73乗に比例する——パラメータこそがより重点的に増やすべき変数である。

この言葉が、GPT-3世代の姿を直接定義した。パラメータを積み上げる。ありったけ積み上げる。1750億。

世界中の開発者に伝えた:問うな、問うならパラメータを積め;モデルを十分に大きくすれば、奇跡が起こると。

2年後、DeepMindはChinchillaを発表し、この結論を覆した:モデルとデータは同程度に重要であり、一緒に拡大すべきで、約1パラメータあたり20トークンが効率的だと。

彼らは700億パラメータのChinchillaを訓練し、1.4兆トークンを与えた——規模はGPT-3の半分以下だが、データはその4倍以上。

結果、同じ計算予算で、2800億パラメータだが3000億トークンしか与えられなかったGopherを完全に凌駕した。

わかりやすく言えば、同じ予算で、一方は「むくみ」のある大男に育て、もう一方は引き締まった格闘家に鍛え上げた。

3年の遅れを経て、北京大学出身の翁荔氏は、その後の研究で両者の差異の主流な解釈を深く考察し、それはパラメータ総数の計算方法の違いによるものだと述べた。

そしてこれで終わりではない。「正しい」とされるChinchilla自身も無実ではない。

2024年、BesirogluらはChinchilla論文のデータポイントを抽出して再実行し、そのフィッティングにもバグが潜んでいることを発見した:

オプティマイザの損失スケールが高すぎ、Huber損失をサンプルごとに平均を取った(合計ではなく)、そのためフィッティングが早期に終了した。

バグを修正した論文が、自ら別のバグを抱えていた。

ここに至って、多くの人が口にする「第一原理」という言葉が、突然揺らぎ始めた。

いわゆるスケーリング則は、決してニュートンの三法則のような鉄壁の物理法則ではなく、経験的にフィッティングされた単なる曲線に過ぎない。

**Diogo Almeidaは真実はそうではないと考えている。**方法が異なるのではなく、「最初のスケーリング則自体にバグがあった」のだ。

OpenAIの三つの手口が世界中のAI関係者を騙した?


世界中のAI業界を集団で信じ込ませる嘘を作るには、たった三つのステップで十分だ。

第一歩:データの囚禁。

OpenAIの論文は、すべてのモデルに——それが歩き始めたばかりの子供(小モデル)であれ、すでに巨人に成長したモデルであれ——まったく同じ「食事量」を与えた。約130Bトークンのデータだ。

小モデルはそれで「満腹」どころか「食べ過ぎ」になり、一方でその容量を満たすために膨大なデータを必要とする大モデルは、同じトークン予算の下で深刻な栄養不足に陥った。

Chinchilla論文は後に鋭く指摘している:彼らはすべてのモデルに「固定の訓練トークン数と学習率スケジュール」を使用していた。

これは幼稚園児と博士課程の学生に同じ試験を同じ時間で受けさせ、「成績は才能にのみ依存する」と宣言するようなものだ。

第二歩:自己欺瞞的なLR減衰。

彼らはコサイン学習率減衰(Cosine Decay)を使用し、訓練が終点に近づくにつれて学習率を滑らかにゼロに近づけた。

訓練が設定された終点に近づくと、学習率が人為的に徐々にゼロに押し下げられ、モデルの進歩は自然に「頭打ち」になった。

曲線が平坦になると、まるでこのモデルはもう学習し尽くして、これ以上データを与えても無駄に見える。

研究者たちはこう結論づけた:「データを増やしても意味がない、モデルは飽和している。」

これはモデルの限界ではなく、学習率がモデルの成長の道を人為的に断ち切ったのだ。完璧な幻想を生み出した:性能は天井に達し、データを増やしても無駄だと。

しかし今では、それらの大モデルは全く頭打ちではなかったことが分かっている。

第三歩:権威の傲慢。

第三歩は、最も陰湿なステップだ:論文には、結果は「学習率スケジュールにほぼ依存しない」と書かれていた。

当時OpenAIにいたDiogo Almeidaを含め、多くの人が違和感を覚えたが、固定トークン上限の下では、この結論は技術的に正しかった。

しかし、それはスケーリング則が本当に記述しようとした「データ無限」の理想世界には全く当てはまらなかった。

彼らは有限条件下の局所的真理を、普遍的な宇宙法則と勘違いした。

三つのステップが重なり、間違っていてかつ極めてデバッグが難しい法則が出来上がった。

Diogo自身も認めている:当時彼もOpenAIで最適化を担当していたが、このバグに気づかなかった——その学習率曲線はあまりにも「入念に設定された」ように見え、誰が疑うだろうか。

GPUが無駄に浪費され、計算リソースのミスマッチが深刻


OpenAIの誤った公式に導かれ、AI業界は「力ずくで奇跡を起こす」時代に突入した。

それはつまり、過去数年、世界で最も賢い頭脳と最も貴重な計算リソースが、無駄な規模拡大に費やされたことを意味する。

これは単なる金銭の問題ではない。AGI(汎用人工知能)への生死をかけた競争の中で、人類は学習率の設定により、集団で間違ったトラックを何千キロも全力疾走してきたのだ。

バグの発見が心を痛めるものであるなら、それに続く深い反省は戦慄を覚えさせる。

研究者Adam Zachary Wassermanは、誰もが見落としていた盲点を指摘した:たとえ公式が修正されても、現在のスケーリング則は単なる「英語スケーリング則」に過ぎない。

彼は直感に反する実験を行った:同じアーキテクチャ、同じ計算リソースでモデルを訓練した。

その結果、フランス語モデルがある文法能力を達成する効率は、英語モデルよりも50倍から100倍も高いことが分かった。

なぜか?英語は「形態的貧困」な言語だからだ。

英語は分布パターンに過度に依存し、モデルが膨大なデータから語義を推測する必要がある。一方、フランス語や中国語のような形態が豊かで構造が厳密な言語は、語彙自体に多くの明確な情報が含まれている。

これは、現在のすべての計算リソース配分計画が、最もデータを消費し、最も非効率な言語に基づいて策定されていることを意味する。

「汎用知能」の物理法則を探求していると思い込んでいるとき、実際には「英語という言語がどれほど計算リソースを浪費するか」を測定しているに過ぎない。

これは、豚の食欲を研究して全宇宙の生物の栄養基準を定めようとするようなものだ——偏見であるだけでなく、認識の限界でもある。

私たちは本来、より小さなモデルとより多くの良質なデータで、より強力な性能を実現できたはずだ。

私たちは本来、数万時間ものH100の稼働による電力と熱を節約できたはずだ。

私たちは本来、2年早く「効率的AI」時代に突入できたはずだ。

本文出典:新智元

リスク注意事項及び免責条項

市場にはリスクが伴います。投資には慎重さが必要です。本記事は個人的な投資アドバイスを構成するものではなく、個々のユーザーの特別な投資目標、財務状況、またはニーズを考慮していません。ユーザーは本記事の意見、見解、または結論が自身の特定の状況に適合するかどうかを考慮する必要があります。これに基づく投資は自己責任です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め