**出典:**新志源
はじめに: マルチモーダルな大型モデルの戦場では、すでにそのことに気づいている人もいます。海外メディアの報道によると、OpenAIの新しいマルチモーダルモデル「Gobi」が準備中であるようだ。 GoogleとOpenAIの対決は目前に迫っているようだ。
画像ソース: Unbounded AI によって生成
この秋が近づき、GoogleとOpenAIのマルチモーダルモデル争いも熾烈な段階に入った。
つい先週、Googleはマルチモーダル大型モデルGeminiの機能を一部の外部企業に公開した。
そしてもちろん、OpenAI も黙って死を待つつもりはありません。彼らはマルチモーダル機能を GPT-4 に統合するために時間との闘いを続けており、Gemini と同様の機能を備えた大規模なマルチモーダル モデルを立ち上げ、Google を一気に潰すことを目指しています。
伝説のマルチモーダル機能は、今年 3 月に世界に衝撃を与えた OpenAI の GPT-4 カンファレンスで実証されました—
紙にスケッチを描き、写真を撮って GPT-4 に送信し、「このレイアウトで Web サイトを作って」と言えば、すぐに Web ページのコードが書き込まれます。
ボスのグレッグ・ブロックマンがオンラインで自らデモンストレーションを行う
しかしその後、マルチモダリティは一瞬の出来事のように見え、製品化された身体機能を見た人は誰もいませんでした。
では、Google と OpenAI の間のマルチモーダル戦争はついに到来するのでしょうか?
Google がこの大きな殺人者を自らの手で殺害しようとしているという噂に直面しても、OpenAI は決して無関心ではいられないでしょう。
海外メディア「The Information」によると、「Gobi」と呼ばれる新しいマルチモーダル大型モデルがすでに集中的に準備されているという。
OpenAIはGeminiのリリース前にマルチモーダルLLMを立ち上げ、Googleを完全に破る計画だ。
OpenAIのグレッグ・ブロックマン vs Googleのデミス・ハサビス
実際、OpenAI は 3 月に GPT-4 マルチモーダル機能のプレビューをリリースした後、この機能を Be My Eyes という会社にリリースしましたが、他の企業には提供していません。
名前からわかるように、この会社は視覚障害者がより鮮明に見えるようにする技術を開発しています。
最近、OpenAI は GPT-Vision と呼ばれる機能をより広範囲に展開する予定です。
OpenAI にこれほど時間がかかったのはなぜですか?
その主な理由は、認証コードを自動的に解読して人間になりすましたり、顔認識によって人間を追跡したりするなど、新しい視覚機能が犯罪者によって悪用されるのではないかと懸念しているためです。
ただし、OpenAI のエンジニアは、これらの法的セキュリティ リスクを解決したようです。
同様に、Google の広報担当者も次のように述べています: Google は Gemini の悪用を防ぐためにいくつかの措置を講じています。
Googleは7月に行った誓約の中で、すべての製品に責任ある人工知能を開発すると約束した。
GPT-Vision の後、OpenAI はコードネーム Gobi と呼ばれる、より強力なマルチモーダル大規模モデルを立ち上げる可能性があります。
GPT-4 とは異なり、Gobi は最初からマルチモーダル モデルに基づいて構築されています。
では、ゴビは伝説の GPT-5 なのでしょうか?
今のところは分かりません。ゴビが訓練でどこまで到達したかについての明確な情報はありません。
9月初旬、DeepMindの共同創設者で現在はInflection AIの最高経営責任者(CEO)であるムスタファ・スレイマン氏がインタビューで爆弾発言を発表した――彼の推測によると、OpenAIは秘密裏にGPT-5をトレーニングしているという。
スレイマン氏は、サム・アルトマン氏がGPT-5を訓練していないと最近発言したのは真実ではないのではないかと考えている。 (元の言葉は次のとおりです。さあ、わかりません。私たちは皆、それについて率直に話したほうが良いと思います。)
ここで、ジェミニを試した人によると、ジェミニは既存のモデルよりも幻覚が少ないとのことです。その理由については以下で詳しく説明します。
つまり、GoogleとOpenAIのマルチモーダルモデル戦争は、iPhoneとAndroidの対決のAI版とも言える。
1社はAI分野で長年君臨してきたシリコンバレーの巨人で、もう1社は右に出る者がいないほど脚光を浴びている超一流のAIスタートアップ企業です。固唾を飲んで待っている。
### Google が秘密裏に Gemini をテスト
一方、Googleは、次期次世代マルチモーダル大型モデルGeminiのテストを迅速化するために、一部の外部開発者を招待し始めている。
先週、The Information は、Gemini が間もなくベータ リリースの準備が整い、Google Cloud Vertex AI などのサービスに統合される可能性があると独占的に報じました。
今年の Google I/O 開発者カンファレンスで、ピチャイ氏は、マルチモーダル モデル、効率的な統合ツール、および API である Gemini を公に紹介しました。
協力して大きなことを成し遂げるために、Google は Google Brain と DeepMind Labs を合併しました。
ジェミニの研究開発にはディープマインド創業者のデミス・ハサビス氏を筆頭に、グーグル創業者のセルゲイ・ブリン氏ら少なくとも20人以上の幹部が研究開発に参加したと言われている。
Google DeepMind には、元 Google Brain ディレクターの Jeff Dean らを含む数百人の従業員もいます。
これをテストしたある関係者は、Gemini は少なくとも 1 つの点で GPT-4 よりも優れていると述べました。このモデルは、ウェブ上で公開されている情報に加えて、Google の消費者向け製品 (検索、YouTube) からの大量の独自データも活用しています。 。
したがって、Gemini は特定のクエリに対するユーザーの意図を特に正確に理解する必要があり、誤った答え、つまり幻覚を生み出すことが少ないようです。
SemiAnalysis アナリストからの以前のレポートによると、Google の次世代大型モデル Gemini は、最大 ~1e26 FLOPS の計算能力を備えた新しい TPUv5 ポッドでトレーニングを開始しました。これは、トレーニング GPT-4 の計算能力の 5 倍です。
さらに、Gemini のトレーニング データベースには Youtube 上の 936 億分のビデオ字幕が含まれており、データ セットの合計サイズは GPT-4 の約 2 倍です。
Googleの次世代大規模モデルも複数のスケールで構成されており、MoEアーキテクチャや投機的サンプリング技術が使用される可能性があると言われています。
トークンは小規模モデルによって事前に生成され、評価のために大規模モデルに渡されて、モデル全体の推論速度が向上します。
Google DeepMindの責任者であるハサビス氏はインタビューで、Geminiの開発には数千万ドルから数億ドルの費用がかかると予想されており、これはGPT-4の開発費に匹敵すると語った。
Gemini は、AlphaGo で使用されているテクノロジーを統合し、システムに新しい計画能力と問題解決能力を与えます。 Gemini は、AlphaGo システムの利点の一部と、大規模な言語モデルの驚くべき言語機能を組み合わせていると言えます。他にも興味深いイノベーションがいくつかあります。
Gemini は、AlphaGo で使用されているテクノロジーを統合し、システムに新しい計画能力と問題解決能力を与えます。
Gemini は、AlphaGo システムの利点の一部と、大規模な言語モデルの驚くべき言語機能を組み合わせていると言えます。他にも興味深いイノベーションがいくつかあります。
AlphaGo の背後にあるテクノロジーは、DeepMind によって開発された強化学習です。
RL エージェントは時間をかけて環境と対話し、試行錯誤を通じてポリシーを学習し、それによって長期的な累積報酬を最大化します。
強化学習を通じて、AI は試行錯誤を通じてパフォーマンスを調整し、フィードバックを受け取ることができ、それによって、囲碁やビデオゲームで次の一手をどのようにとるかを選択するなど、難しい問題に対処する方法を学習します。
さらに、AlphaGo はモンテカルロ ツリー検索 (MCTS) メソッドも使用して、ボード上のすべての可能な手を探索して記憶します。
既存のモデルと比較して、Gemini はソフトウェア開発者のコード生成機能を大幅に向上させるため、Google はこれを利用して Microsoft の GitHub Copilot コード アシスタントに追いつきたいと考えています。
Googleはまた、Geminiを使用して、完成したチャートの意味をモデルに解釈するよう依頼したり、テキストや音声コマンドを使用してウェブブラウザやその他のソフトウェアを閲覧したりするチャート分析などの機能を実装することについても議論している。
Google Cloud 開発者プラットフォームである Google Cloud Vertex AI も Gemini でサポートされ、大規模バージョンと小規模バージョンの両方が利用できるため、開発者は個人のデバイスで実行する小規模モデルを購入するために料金を支払うことができます。
現在、グーグルは戦争の準備を万全にし、ジェミニが反撃を開始するのを待っている。
7 月、OpenAI は、GPT-4 API が完全に利用可能になり、今後数か月以内に新しいモデルをリリースする予定であると発表しました。
いいえ、ちょうど今日、ネチズンは古いモデル text-davinci-003 に代わる gpt-3.5-turbo-instruct の新モデルをリリースする電子メールを受け取りました。
報告によると、gpt-3.5-turbo-instruct は InstructGPT スタイルのモデルであり、そのトレーニング方法は text-davinci-003 に似ています。
使用方法は前回の「完了」と同様で、プロンプトワードの指示に従って完了します。
価格の点では、gpt-3.5-turbo 4K は一貫しています。
一部のネチズンは、最新モデルを使用して約 1800 人の Elo とチェスをプレイし始めています。
彼は以前、GPT ではこれがまったくできないことを発見しましたが、現在では、これは RLHF チャット モデルのみの問題であり、純粋な Completion モデルは成功しているようです。
ゲームでは、gpt-3.5-turbo-instruct が Stockfish レベル 4 (1700 ポイント) を簡単に破り、レベル 5 (2000 ポイント) にも負けませんでした。
決して違法な動きをすることはなく、巧妙な開始犠牲と信じられないほどのポーンとキングのチェックメイトを使用して、対戦相手が実質的な意味を持たずに前進できるようにします。
ネットユーザーは次の PGN スタイル プロンプトを使用してマスター ゲームをシミュレートします。ハイライトの入れ方が少し間違っています。 GPT は独自の動きを行い、Stockfish の動きを手動で入力します。
ちなみに、11月に開催されるOpenAI初の開発者カンファレンスの登録が始まっているので、急いで申し込んでください。
参考文献:
414.23K 人気度
36.79K 人気度
18.39K 人気度
755.22K 人気度
31.85K 人気度
GPT-5は来るのか? OpenAI がマルチモーダル大規模モデル Gobi のトレーニングを加速し、Google Gimini を一挙に破壊したことが明らかになりました。
**出典:**新志源
はじめに: マルチモーダルな大型モデルの戦場では、すでにそのことに気づいている人もいます。海外メディアの報道によると、OpenAIの新しいマルチモーダルモデル「Gobi」が準備中であるようだ。 GoogleとOpenAIの対決は目前に迫っているようだ。
この秋が近づき、GoogleとOpenAIのマルチモーダルモデル争いも熾烈な段階に入った。
つい先週、Googleはマルチモーダル大型モデルGeminiの機能を一部の外部企業に公開した。
そしてもちろん、OpenAI も黙って死を待つつもりはありません。彼らはマルチモーダル機能を GPT-4 に統合するために時間との闘いを続けており、Gemini と同様の機能を備えた大規模なマルチモーダル モデルを立ち上げ、Google を一気に潰すことを目指しています。
伝説のマルチモーダル機能は、今年 3 月に世界に衝撃を与えた OpenAI の GPT-4 カンファレンスで実証されました—
紙にスケッチを描き、写真を撮って GPT-4 に送信し、「このレイアウトで Web サイトを作って」と言えば、すぐに Web ページのコードが書き込まれます。
しかしその後、マルチモダリティは一瞬の出来事のように見え、製品化された身体機能を見た人は誰もいませんでした。
では、Google と OpenAI の間のマルチモーダル戦争はついに到来するのでしょうか?
Google と競合する OpenAI は、大規模なマルチモーダル モデルのリリースを急いでいます
Google がこの大きな殺人者を自らの手で殺害しようとしているという噂に直面しても、OpenAI は決して無関心ではいられないでしょう。
海外メディア「The Information」によると、「Gobi」と呼ばれる新しいマルチモーダル大型モデルがすでに集中的に準備されているという。
OpenAIはGeminiのリリース前にマルチモーダルLLMを立ち上げ、Googleを完全に破る計画だ。
実際、OpenAI は 3 月に GPT-4 マルチモーダル機能のプレビューをリリースした後、この機能を Be My Eyes という会社にリリースしましたが、他の企業には提供していません。
名前からわかるように、この会社は視覚障害者がより鮮明に見えるようにする技術を開発しています。
最近、OpenAI は GPT-Vision と呼ばれる機能をより広範囲に展開する予定です。
その主な理由は、認証コードを自動的に解読して人間になりすましたり、顔認識によって人間を追跡したりするなど、新しい視覚機能が犯罪者によって悪用されるのではないかと懸念しているためです。
ただし、OpenAI のエンジニアは、これらの法的セキュリティ リスクを解決したようです。
同様に、Google の広報担当者も次のように述べています: Google は Gemini の悪用を防ぐためにいくつかの措置を講じています。
Googleは7月に行った誓約の中で、すべての製品に責任ある人工知能を開発すると約束した。
**ゴビは GPT-5 になれるでしょうか? **
GPT-Vision の後、OpenAI はコードネーム Gobi と呼ばれる、より強力なマルチモーダル大規模モデルを立ち上げる可能性があります。
GPT-4 とは異なり、Gobi は最初からマルチモーダル モデルに基づいて構築されています。
では、ゴビは伝説の GPT-5 なのでしょうか?
9月初旬、DeepMindの共同創設者で現在はInflection AIの最高経営責任者(CEO)であるムスタファ・スレイマン氏がインタビューで爆弾発言を発表した――彼の推測によると、OpenAIは秘密裏にGPT-5をトレーニングしているという。
スレイマン氏は、サム・アルトマン氏がGPT-5を訓練していないと最近発言したのは真実ではないのではないかと考えている。 (元の言葉は次のとおりです。さあ、わかりません。私たちは皆、それについて率直に話したほうが良いと思います。)
つまり、GoogleとOpenAIのマルチモーダルモデル戦争は、iPhoneとAndroidの対決のAI版とも言える。
1社はAI分野で長年君臨してきたシリコンバレーの巨人で、もう1社は右に出る者がいないほど脚光を浴びている超一流のAIスタートアップ企業です。固唾を飲んで待っている。
一方、Googleは、次期次世代マルチモーダル大型モデルGeminiのテストを迅速化するために、一部の外部開発者を招待し始めている。
先週、The Information は、Gemini が間もなくベータ リリースの準備が整い、Google Cloud Vertex AI などのサービスに統合される可能性があると独占的に報じました。
協力して大きなことを成し遂げるために、Google は Google Brain と DeepMind Labs を合併しました。
Google DeepMind には、元 Google Brain ディレクターの Jeff Dean らを含む数百人の従業員もいます。
これをテストしたある関係者は、Gemini は少なくとも 1 つの点で GPT-4 よりも優れていると述べました。このモデルは、ウェブ上で公開されている情報に加えて、Google の消費者向け製品 (検索、YouTube) からの大量の独自データも活用しています。 。
したがって、Gemini は特定のクエリに対するユーザーの意図を特に正確に理解する必要があり、誤った答え、つまり幻覚を生み出すことが少ないようです。
Googleの次世代大規模モデルも複数のスケールで構成されており、MoEアーキテクチャや投機的サンプリング技術が使用される可能性があると言われています。
トークンは小規模モデルによって事前に生成され、評価のために大規模モデルに渡されて、モデル全体の推論速度が向上します。
Google DeepMindの責任者であるハサビス氏はインタビューで、Geminiの開発には数千万ドルから数億ドルの費用がかかると予想されており、これはGPT-4の開発費に匹敵すると語った。
強化学習を通じて、AI は試行錯誤を通じてパフォーマンスを調整し、フィードバックを受け取ることができ、それによって、囲碁やビデオゲームで次の一手をどのようにとるかを選択するなど、難しい問題に対処する方法を学習します。
さらに、AlphaGo はモンテカルロ ツリー検索 (MCTS) メソッドも使用して、ボード上のすべての可能な手を探索して記憶します。
Googleはまた、Geminiを使用して、完成したチャートの意味をモデルに解釈するよう依頼したり、テキストや音声コマンドを使用してウェブブラウザやその他のソフトウェアを閲覧したりするチャート分析などの機能を実装することについても議論している。
Google Cloud 開発者プラットフォームである Google Cloud Vertex AI も Gemini でサポートされ、大規模バージョンと小規模バージョンの両方が利用できるため、開発者は個人のデバイスで実行する小規模モデルを購入するために料金を支払うことができます。
現在、グーグルは戦争の準備を万全にし、ジェミニが反撃を開始するのを待っている。
gpt-3.5-turbo-instruct がリリースされました
7 月、OpenAI は、GPT-4 API が完全に利用可能になり、今後数か月以内に新しいモデルをリリースする予定であると発表しました。
報告によると、gpt-3.5-turbo-instruct は InstructGPT スタイルのモデルであり、そのトレーニング方法は text-davinci-003 に似ています。
使用方法は前回の「完了」と同様で、プロンプトワードの指示に従って完了します。
一部のネチズンは、最新モデルを使用して約 1800 人の Elo とチェスをプレイし始めています。
彼は以前、GPT ではこれがまったくできないことを発見しましたが、現在では、これは RLHF チャット モデルのみの問題であり、純粋な Completion モデルは成功しているようです。
決して違法な動きをすることはなく、巧妙な開始犠牲と信じられないほどのポーンとキングのチェックメイトを使用して、対戦相手が実質的な意味を持たずに前進できるようにします。