# AI大規模モデル競争:学術的ホットトピックからエンジニアリングの課題へ先月、AI分野で激しい「動物戦争」が勃発しました。一方はアメリカ・ラマLlamaで、オープンソースの特性から開発者に人気があります。もう一方はファルコンFalconという大規模モデルです。5月にFalcon-40Bが登場した後、アメリカ・ラマを圧倒してオープンソースLLMランキングのトップに立ちました。このランキングはオープンソースモデルコミュニティによって作成され、LLMの能力を評価する基準を提供します。ランキングは基本的にLlamaとFalconが交互に更新されています。Llama 2がリリースされた後、ラマファミリーが一時的にリードしていますが、9月初旬にFalconが180Bバージョンを発表し、再び高いランキングを獲得しました。興味深いことに、「ファルコン」の開発者はテクノロジー会社ではなく、アラブ首長国連邦の首都にあるテクノロジー革新研究所です。政府関係者は、彼らがこのプロジェクトに参加したのはコアプレイヤーを覆すためだと述べています。現在、AI分野は百花繚乱の段階に入っています。実力のある国や企業が自分たちの大規模言語モデルを構築しています。湾岸地域だけでもプレイヤーは一つではなく、8月にはサウジアラビアが国内の大学のために3000枚以上のH100チップを購入し、LLMの訓練に使用しました。投資家が不満を述べて言った:"当時、インターネットのビジネスモデルの革新を軽視し、障壁がないと思っていた。まさかハードテクノロジーの大規模モデルの起業が、依然として百のモデルの戦いになるとは..."高難度のハードテクノロジーと称されたものが、どうして誰でも参加できるトレンドになったのか?# トランスフォーマーの台頭アメリカのスタートアップ、中国のテクノロジー大手、中東の石油王たちが大規模モデルに取り組むことができるのは、有名な論文《Attention Is All You Need》のおかげです。2017年、8人のコンピュータサイエンティストがこの論文でTransformerアルゴリズムを公開しました。この論文は現在、AIの歴史の中で引用回数が3番目に多い文献であり、Transformerの登場はこのAIブームを引き起こしました。現在のさまざまな大規模モデル、世界を驚かせたGPTシリーズを含む、はTransformerの基礎の上に構築されています。これまで、「機械に読ませること」は認められた学術的な課題でした。画像認識とは異なり、人間は読書の際に現在の単語や文だけでなく、文脈を考慮して理解します。初期の神経ネットワークは相互に独立した入力であり、長いテキストを理解することができず、翻訳ミスが頻繁に発生しました。2014年、グーグルの科学者イリヤ・サツクヴィルが初めてブレークスルーを達成しました。彼はリカレントニューラルネットワーク(RNN)を用いて自然言語を処理し、グーグル翻訳のパフォーマンスを大幅に向上させました。RNNは「リカレントデザイン」を提唱し、各ニューロンが現在の入力と前の時間の入力を同時に受け取ることを可能にし、「文脈を組み合わせる」能力を持つようになりました。RNNの出現は学界の研究熱を呼び起こしましたが、開発者はすぐにそれに深刻な欠陥があることに気づきました。このアルゴリズムは順次計算を使用しており、文脈問題を解決しましたが、実行効率が低く、大量のパラメータの処理が難しいのです。2015年から、ノアム・シャジアーを含む8人の研究者がRNNの代替品の開発に着手し、最終的な成果がTransformerです。RNNに比べて、Transformerには2つの大きな革命があります。1つは、位置エンコーディングを用いて循環設計を置き換え、並列計算を実現し、トレーニング効率を大幅に向上させ、AIを大規模モデルの時代に押し進めたことです。2つ目は、文脈理解能力をさらに強化したことです。Transformerは複数の欠陥を一挙に解決し、徐々にNLP分野の主流ソリューションに発展しました。それは大規模モデルを理論研究から純粋なエンジニアリングの問題に変えました。2019年、OpenAIはTransformerを基にGPT-2を開発し、学界を驚かせました。Googleはすぐに、パラメータと計算力を増やすだけでGPT-2を超える性能を持つMeenaを発表しました。これによりTransformerの著者Shazeerは大きな衝撃を受け、「Meenaは世界を飲み込む」というメモを残しました。トランスフォーマーの登場以降、学界の基盤アルゴリズムの革新速度は大幅に鈍化しました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要素が、AI競争の鍵となっています。一定の技術力を持つ企業であれば、大規模モデルを開発することができます。コンピュータ科学者のアンドリュー・ングはスタンフォード大学での講演で次のように指摘しました。「AIは、監視学習、無監視学習、強化学習、生成AIを含むツールのセットです。これらはすべて、電力やインターネットに似た汎用技術です。」OpenAIは依然としてLLMの指標ですが、分析機関はGPT-4の利点が主にエンジニアリングソリューションにあると考えています。もしオープンソース化されれば、どの競合他社も迅速にコピーすることができます。このアナリストは、他の大手テクノロジー企業がすぐにGPT-4と同等の性能を持つ大規模モデルを構築できると予測しています。# 壊れやすい堀今や、「百模バトル」は誇張された表現ではなく、客観的な現実となっています。関連報告によれば、今年7月時点で国内の大規模モデルの数は130に達し、アメリカの114を超えました。さまざまな神話や伝説は国内のテクノロジー企業の命名にはもはや不十分です。中米を除いて、いくつかの裕福な国も「一国一モデル」を初めて実現しました:日本とアラブ首長国連邦はそれぞれ独自の大規模モデルを持ち、インド政府が主導するBhashiniや韓国のインターネット企業Naverが開発したHyperClova Xなどがあります。このシーンは、インターネットの初期、バブルが飛び交っていた時代に戻ったかのようです。前述のように、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。お金とグラフィックカードさえあれば、残りはパラメータに任せられます。しかし、参入障壁は低いとはいえ、誰もがAI時代の巨頭になるわけではありません。冒頭で言及された「動物大戦」は典型的なケースです:FalconはランキングでLlamaを上回っていますが、Metaにどれほどの影響を与えたかは難しいところです。広く知られているように、企業が自らの成果をオープンソースにすることは、技術の恩恵を共有するためだけでなく、社会の知恵を引き出すことを望んでいるからです。さまざまな分野でLlamaが継続的に使用され、改善されることで、Metaはこれらの成果を自社の製品に応用することができます。オープンソースの大規模モデルにとって、活発な開発者コミュニティこそが核心的な競争力です。Metaは2015年にAIラボを設立した際にオープンソースの方針を確立しました。ザッカーバーグはソーシャルメディアからスタートし、"良好な関係を築く"方法を深く理解しています。10月、Metaは「AI版クリエイター奨励」活動を特別に実施しました: Llama 2を使用して教育、環境などの社会問題を解決する開発者は、50万ドルの資金を受け取る機会があります。現在、MetaのLlamaシリーズはオープンソースLLMの指標となっています。10月初旬の時点で、あるオープンソースLLMランキングの上位10位の中で、8つはLlama 2に基づいて開発されています。このプラットフォーム上で、Llama 2のオープンソースライセンスを使用しているLLMは1500を超えています。もちろん、Falconのように性能を向上させることも悪くはありませんが、現時点で市場に出回っているほとんどのLLMはGPT-4とは依然として明らかな差があります。例えば、最近、GPT-4は4.41点の成績でAgentBenchテストの1位になりました。AgentBenchは清華大学と複数のアメリカ名門校が共同で発表したもので、LLMの多次元オープン環境での推論と意思決定能力を評価するために使用されており、テスト内容はオペレーティングシステム、データベース、知識グラフ、カードバトルなど8つの異なるシーンを含んでいます。テスト結果は、2位のClaudeがわずか2.77点であり、差が依然として明らかであることを示しています。一方で、盛大なオープンソースLLMは、成績が1点前後で、GPT-4の4分の1にも達していません。知っておくべきことは、GPT-4が今年の3月に発表されたことで、これは世界の競合が半年以上追いかけた結果であるということです。この差を生じさせたのは、OpenAIの優れた科学者チームと長年にわたるLLM研究の経験であり、そのため常に先を行くことができるのです。つまり、大規模モデルの核心的な利点はパラメータではなく、エコシステムの構築(オープンソース)または純粋な推論能力(クローズドソース)です。オープンソースコミュニティがますます活発になるにつれて、さまざまなLLMの性能は同質化する可能性があります。なぜなら、皆が似たようなモデルアーキテクチャとデータセットを使用しているからです。もう一つのより直感的な問題は、Midjourneyを除けば、実際に利益を上げている大規模モデルは存在しないように思えることです。# 価値の拠り所はどこにあるか今年8月、"OpenAIは2024年末に破産する可能性がある"というタイトルの記事が注目を集めました。記事の主旨はほぼ一言で要約できます: OpenAIの資金消耗の速度があまりにも速すぎる。文中では、ChatGPTの開発以来、OpenAIの損失が急速に拡大しており、2022年だけで約5.4億ドルの損失を出し、Microsoftの投資に頼らざるを得ないことが述べられています。記事のタイトルは誇張されているが、多くの大規模モデル提供者の現状を語っている: コストと収入のバランスが深刻に崩れている。高すぎるコストのため、現在AIで大金を稼いでいるのはNVIDIAだけであり、せいぜいBroadcomが加わる程度である。コンサルティング会社Omdiaによれば、NVIDIAは今年第2四半期に30万枚以上のH100を販売しました。これはAIトレーニングの効率が非常に高いチップで、世界中のテクノロジー企業や研究機関がこぞって購入しています。この30万枚のH100を積み重ねると、その重さは4.5機のボーイング747に相当します。NVIDIAの業績は急上昇し、前年同期比で収益が854%増加し、ウォール街を驚かせました。現在、H100は中古市場で4万〜5万ドルにまで値上がりしていますが、その材料コストは約3000ドルに過ぎません。高騰する計算力コストは、ある程度業界の発展の障害となっています。セコイアキャピタルは試算しており、世界のテクノロジー企業は毎年2000億ドルを大規模モデルのインフラ整備に費やすと予想しています。それに対して、大規模モデルは年間で最大750億ドルの収入しか生み出せず、その間には少なくとも1250億ドルのギャップが存在します。さらに、Midjourneyなどの少数の例外を除いて、ほとんどのソフトウェア会社は巨額の投資を行った後も明確な収益モデルを見つけていません。特に業界のリーダーであるマイクロソフトとAdobeの探求はややつまずいています。マイクロソフトとOpenAIが共同開発したAIコード生成ツールGitHub Copilotは、月額10ドルの料金がかかりますが、施設コストのためにマイクロソフトはユーザーごとに20ドルの損失を出しています。ヘビーユーザーの場合、マイクロソフトは月に80ドルの損失を出すことさえあります。このことから、30ドルの価格設定のMicrosoft 365 Copilotはさらに多くの損失を出す可能性があると推測されます。同様に、Firefly AIツールを発表したAdobeも、ユーザーの過度な使用による会社の損失を防ぐために、ポイントシステムを迅速に導入しました。ユーザーが毎月の割り当てポイントを超えた場合、Adobeはサービスの速度を低下させます。マイクロソフトとAdobeは、ビジネスシーンが明確で、多くの有料ユーザーを持つソフトウェアの巨人であることを知っておく必要があります。一方で、パラメータが山のように積み重なった大規模モデルの最大のアプリケーションシーンは、依然としてチャットです。否定できないことですが、OpenAIやChatGPTが登場しなければ、このAI革命はそもそも起こらなかったでしょう。しかし今、トレーニングされた大規模モデルが生み出す価値はまだ議論の余地があるかもしれません。さらに、同質化競争が激化し、オープンソースモデルが増加する中で、単純な大モデルの供給者はより大きな課題に直面する可能性があります。iPhone 4の成功は45nmプロセスのA4プロセッサーに起因するのではなく、植物対ゾンビやアングリー・バードのようなアプリが楽しめるからです。
AI大モデル競争:学術の突破からロング混戦へ
AI大規模モデル競争:学術的ホットトピックからエンジニアリングの課題へ
先月、AI分野で激しい「動物戦争」が勃発しました。
一方はアメリカ・ラマLlamaで、オープンソースの特性から開発者に人気があります。もう一方はファルコンFalconという大規模モデルです。5月にFalcon-40Bが登場した後、アメリカ・ラマを圧倒してオープンソースLLMランキングのトップに立ちました。
このランキングはオープンソースモデルコミュニティによって作成され、LLMの能力を評価する基準を提供します。ランキングは基本的にLlamaとFalconが交互に更新されています。Llama 2がリリースされた後、ラマファミリーが一時的にリードしていますが、9月初旬にFalconが180Bバージョンを発表し、再び高いランキングを獲得しました。
興味深いことに、「ファルコン」の開発者はテクノロジー会社ではなく、アラブ首長国連邦の首都にあるテクノロジー革新研究所です。政府関係者は、彼らがこのプロジェクトに参加したのはコアプレイヤーを覆すためだと述べています。
現在、AI分野は百花繚乱の段階に入っています。実力のある国や企業が自分たちの大規模言語モデルを構築しています。湾岸地域だけでもプレイヤーは一つではなく、8月にはサウジアラビアが国内の大学のために3000枚以上のH100チップを購入し、LLMの訓練に使用しました。
投資家が不満を述べて言った:"当時、インターネットのビジネスモデルの革新を軽視し、障壁がないと思っていた。まさかハードテクノロジーの大規模モデルの起業が、依然として百のモデルの戦いになるとは..."
高難度のハードテクノロジーと称されたものが、どうして誰でも参加できるトレンドになったのか?
トランスフォーマーの台頭
アメリカのスタートアップ、中国のテクノロジー大手、中東の石油王たちが大規模モデルに取り組むことができるのは、有名な論文《Attention Is All You Need》のおかげです。
2017年、8人のコンピュータサイエンティストがこの論文でTransformerアルゴリズムを公開しました。この論文は現在、AIの歴史の中で引用回数が3番目に多い文献であり、Transformerの登場はこのAIブームを引き起こしました。
現在のさまざまな大規模モデル、世界を驚かせたGPTシリーズを含む、はTransformerの基礎の上に構築されています。
これまで、「機械に読ませること」は認められた学術的な課題でした。画像認識とは異なり、人間は読書の際に現在の単語や文だけでなく、文脈を考慮して理解します。初期の神経ネットワークは相互に独立した入力であり、長いテキストを理解することができず、翻訳ミスが頻繁に発生しました。
2014年、グーグルの科学者イリヤ・サツクヴィルが初めてブレークスルーを達成しました。彼はリカレントニューラルネットワーク(RNN)を用いて自然言語を処理し、グーグル翻訳のパフォーマンスを大幅に向上させました。RNNは「リカレントデザイン」を提唱し、各ニューロンが現在の入力と前の時間の入力を同時に受け取ることを可能にし、「文脈を組み合わせる」能力を持つようになりました。
RNNの出現は学界の研究熱を呼び起こしましたが、開発者はすぐにそれに深刻な欠陥があることに気づきました。このアルゴリズムは順次計算を使用しており、文脈問題を解決しましたが、実行効率が低く、大量のパラメータの処理が難しいのです。
2015年から、ノアム・シャジアーを含む8人の研究者がRNNの代替品の開発に着手し、最終的な成果がTransformerです。RNNに比べて、Transformerには2つの大きな革命があります。1つは、位置エンコーディングを用いて循環設計を置き換え、並列計算を実現し、トレーニング効率を大幅に向上させ、AIを大規模モデルの時代に押し進めたことです。2つ目は、文脈理解能力をさらに強化したことです。
Transformerは複数の欠陥を一挙に解決し、徐々にNLP分野の主流ソリューションに発展しました。それは大規模モデルを理論研究から純粋なエンジニアリングの問題に変えました。
2019年、OpenAIはTransformerを基にGPT-2を開発し、学界を驚かせました。Googleはすぐに、パラメータと計算力を増やすだけでGPT-2を超える性能を持つMeenaを発表しました。これによりTransformerの著者Shazeerは大きな衝撃を受け、「Meenaは世界を飲み込む」というメモを残しました。
トランスフォーマーの登場以降、学界の基盤アルゴリズムの革新速度は大幅に鈍化しました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要素が、AI競争の鍵となっています。一定の技術力を持つ企業であれば、大規模モデルを開発することができます。
コンピュータ科学者のアンドリュー・ングはスタンフォード大学での講演で次のように指摘しました。「AIは、監視学習、無監視学習、強化学習、生成AIを含むツールのセットです。これらはすべて、電力やインターネットに似た汎用技術です。」
OpenAIは依然としてLLMの指標ですが、分析機関はGPT-4の利点が主にエンジニアリングソリューションにあると考えています。もしオープンソース化されれば、どの競合他社も迅速にコピーすることができます。このアナリストは、他の大手テクノロジー企業がすぐにGPT-4と同等の性能を持つ大規模モデルを構築できると予測しています。
壊れやすい堀
今や、「百模バトル」は誇張された表現ではなく、客観的な現実となっています。
関連報告によれば、今年7月時点で国内の大規模モデルの数は130に達し、アメリカの114を超えました。さまざまな神話や伝説は国内のテクノロジー企業の命名にはもはや不十分です。
中米を除いて、いくつかの裕福な国も「一国一モデル」を初めて実現しました:日本とアラブ首長国連邦はそれぞれ独自の大規模モデルを持ち、インド政府が主導するBhashiniや韓国のインターネット企業Naverが開発したHyperClova Xなどがあります。
このシーンは、インターネットの初期、バブルが飛び交っていた時代に戻ったかのようです。前述のように、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。お金とグラフィックカードさえあれば、残りはパラメータに任せられます。しかし、参入障壁は低いとはいえ、誰もがAI時代の巨頭になるわけではありません。
冒頭で言及された「動物大戦」は典型的なケースです:FalconはランキングでLlamaを上回っていますが、Metaにどれほどの影響を与えたかは難しいところです。
広く知られているように、企業が自らの成果をオープンソースにすることは、技術の恩恵を共有するためだけでなく、社会の知恵を引き出すことを望んでいるからです。さまざまな分野でLlamaが継続的に使用され、改善されることで、Metaはこれらの成果を自社の製品に応用することができます。
オープンソースの大規模モデルにとって、活発な開発者コミュニティこそが核心的な競争力です。
Metaは2015年にAIラボを設立した際にオープンソースの方針を確立しました。ザッカーバーグはソーシャルメディアからスタートし、"良好な関係を築く"方法を深く理解しています。
10月、Metaは「AI版クリエイター奨励」活動を特別に実施しました: Llama 2を使用して教育、環境などの社会問題を解決する開発者は、50万ドルの資金を受け取る機会があります。
現在、MetaのLlamaシリーズはオープンソースLLMの指標となっています。10月初旬の時点で、あるオープンソースLLMランキングの上位10位の中で、8つはLlama 2に基づいて開発されています。このプラットフォーム上で、Llama 2のオープンソースライセンスを使用しているLLMは1500を超えています。
もちろん、Falconのように性能を向上させることも悪くはありませんが、現時点で市場に出回っているほとんどのLLMはGPT-4とは依然として明らかな差があります。
例えば、最近、GPT-4は4.41点の成績でAgentBenchテストの1位になりました。AgentBenchは清華大学と複数のアメリカ名門校が共同で発表したもので、LLMの多次元オープン環境での推論と意思決定能力を評価するために使用されており、テスト内容はオペレーティングシステム、データベース、知識グラフ、カードバトルなど8つの異なるシーンを含んでいます。
テスト結果は、2位のClaudeがわずか2.77点であり、差が依然として明らかであることを示しています。一方で、盛大なオープンソースLLMは、成績が1点前後で、GPT-4の4分の1にも達していません。
知っておくべきことは、GPT-4が今年の3月に発表されたことで、これは世界の競合が半年以上追いかけた結果であるということです。この差を生じさせたのは、OpenAIの優れた科学者チームと長年にわたるLLM研究の経験であり、そのため常に先を行くことができるのです。
つまり、大規模モデルの核心的な利点はパラメータではなく、エコシステムの構築(オープンソース)または純粋な推論能力(クローズドソース)です。
オープンソースコミュニティがますます活発になるにつれて、さまざまなLLMの性能は同質化する可能性があります。なぜなら、皆が似たようなモデルアーキテクチャとデータセットを使用しているからです。
もう一つのより直感的な問題は、Midjourneyを除けば、実際に利益を上げている大規模モデルは存在しないように思えることです。
価値の拠り所はどこにあるか
今年8月、"OpenAIは2024年末に破産する可能性がある"というタイトルの記事が注目を集めました。記事の主旨はほぼ一言で要約できます: OpenAIの資金消耗の速度があまりにも速すぎる。
文中では、ChatGPTの開発以来、OpenAIの損失が急速に拡大しており、2022年だけで約5.4億ドルの損失を出し、Microsoftの投資に頼らざるを得ないことが述べられています。
記事のタイトルは誇張されているが、多くの大規模モデル提供者の現状を語っている: コストと収入のバランスが深刻に崩れている。
高すぎるコストのため、現在AIで大金を稼いでいるのはNVIDIAだけであり、せいぜいBroadcomが加わる程度である。
コンサルティング会社Omdiaによれば、NVIDIAは今年第2四半期に30万枚以上のH100を販売しました。これはAIトレーニングの効率が非常に高いチップで、世界中のテクノロジー企業や研究機関がこぞって購入しています。この30万枚のH100を積み重ねると、その重さは4.5機のボーイング747に相当します。
NVIDIAの業績は急上昇し、前年同期比で収益が854%増加し、ウォール街を驚かせました。現在、H100は中古市場で4万〜5万ドルにまで値上がりしていますが、その材料コストは約3000ドルに過ぎません。
高騰する計算力コストは、ある程度業界の発展の障害となっています。セコイアキャピタルは試算しており、世界のテクノロジー企業は毎年2000億ドルを大規模モデルのインフラ整備に費やすと予想しています。それに対して、大規模モデルは年間で最大750億ドルの収入しか生み出せず、その間には少なくとも1250億ドルのギャップが存在します。
さらに、Midjourneyなどの少数の例外を除いて、ほとんどのソフトウェア会社は巨額の投資を行った後も明確な収益モデルを見つけていません。特に業界のリーダーであるマイクロソフトとAdobeの探求はややつまずいています。
マイクロソフトとOpenAIが共同開発したAIコード生成ツールGitHub Copilotは、月額10ドルの料金がかかりますが、施設コストのためにマイクロソフトはユーザーごとに20ドルの損失を出しています。ヘビーユーザーの場合、マイクロソフトは月に80ドルの損失を出すことさえあります。このことから、30ドルの価格設定のMicrosoft 365 Copilotはさらに多くの損失を出す可能性があると推測されます。
同様に、Firefly AIツールを発表したAdobeも、ユーザーの過度な使用による会社の損失を防ぐために、ポイントシステムを迅速に導入しました。ユーザーが毎月の割り当てポイントを超えた場合、Adobeはサービスの速度を低下させます。
マイクロソフトとAdobeは、ビジネスシーンが明確で、多くの有料ユーザーを持つソフトウェアの巨人であることを知っておく必要があります。一方で、パラメータが山のように積み重なった大規模モデルの最大のアプリケーションシーンは、依然としてチャットです。
否定できないことですが、OpenAIやChatGPTが登場しなければ、このAI革命はそもそも起こらなかったでしょう。しかし今、トレーニングされた大規模モデルが生み出す価値はまだ議論の余地があるかもしれません。
さらに、同質化競争が激化し、オープンソースモデルが増加する中で、単純な大モデルの供給者はより大きな課題に直面する可能性があります。
iPhone 4の成功は45nmプロセスのA4プロセッサーに起因するのではなく、植物対ゾンビやアングリー・バードのようなアプリが楽しめるからです。