最も強力なオープンソースモデルが手を変え品を変えますか? Kai-Fu Leeはチームを多くのグローバルリストのトップに導き、400,000のテキスト処理が記録を破りました

元のソース: qubits

画像ソース: Unbounded AIによって生成

最も期待されているプレイヤーの1人である100モデルバトルがついに正式デビューしました!

これは、Kai-Fu Lee博士によって設立されたAI 2.0企業の最初のオープンソースモデルです。

Yi-34BYi-6B

大型モデルのYiシリーズは比較的遅れてデビューしましたが、効果の面では間違いなく後発と呼ぶことができます。

撮影されるやいなや、数々の世界初**を獲得しました。

  • Hugging Faceは、Llama-2 70BやFalcon-180Bなどの34Bサイズの大型モデルを粉砕し、英語のテストリストで1位にランクされました。 *HuggingFaceの頂点に立った唯一の国内大型モデル。
  • C-Chineseの能力ランキングは、世界のすべてのオープンソースモデルを上回っています。
  • MMLU、BBH、その他の8つの包括的な機能はすべてパフォーマンスを獲得しました。 *世界最長のコンテキストウィンドウの王座を獲得し、超長いテキスト入力のために400,000の漢字を直接処理できる200Kに達しました。
  • ......

特筆すべきは、ゼロ・ワン・サウザンド・シングスとその大型モデルは一夜にして完成したものではなく、半年以上かけて醸造されたことです。

これは必然的に多くの疑問を提起します。

例えば、なぜ半年も我慢して、年末近くに撮影することを選ぶのか。

もうひとつの例は、これほど多くの「初めて」を最初に達成するにはどうすればよいかということです。

これらの質問で、私たちはゼロワンエブリシングと独占的なコミュニケーションを取りました、そして今、私たちは秘密を一つずつ明らかにします。

1,000億個のパラメータラージモデルを倒す

具体的には、新しくリリースされ、オープンソース化された大型モデルのYiシリーズには、主に2つのハイライトがあります。

  • 「小さくて大きく勝つ」ことで、1,000億のパラメータモデルを打ち負かす *世界最長のコンテキストウィンドウは400,000語をサポートします

Hugging Faceの事前学習済みオープンソースモデルのランキングでは、Yi-34Bが70.72点で世界第1位となり、LLaMA-70BとFalcon-180Bを上回った。

Yi-34Bのパラメータの数は、後者の2つのパラメータの1/2、1/5にすぎないことを知っておく必要があります。 「スモール&ビッグ」でトップに立っただけでなく、100億規模の大規模モデルを100億スケールで破り、桁違いの追い越しを成し遂げた。

その中で、Yi-34BはMMLU(Massive Multi-task Language Understanding)とTruthfulQA(Authenticity Benchmark)の2つの指標で他の大規模モデルを大幅に上回った。

** **###### Hugging Face Open LLM リーダーボード (事前トレーニング済み) 大型モデルリーダーボード、Yi-34B がリストのトップに (2023 年 11 月 5 日)

中国語能力に焦点を当てたYi-34Bは、C-中国語能力ランキングですべてのオープンソースモデルを上回っています。

同様に、オープンソースのYi-6Bは、同じ規模のすべてのオープンソースモデルを凌駕しています。

** **###### C- リーダーボード:一般公開モデル、Yi-34B 世界No.1(2023年11月5日)

CMMLU、E-、Gaokaoの3つの主要な中国指標では、がGPT-4を大幅に上回っており、中国語の強い優位性を示しており、ルーツについてより多くを知っています

BooIQとOBQAに関しては、GPT-4と同じレベルです。

また、大規模モデルの最重要評価指標であるMMLU(Massive Multitask Language Understanding)やBBHなど、モデルの総合力を反映した評価セットでは、Yi-34Bが一般能力、知識推論、読解力などの評価を上回り、Hugging Faceの評価と高い整合性を保っています。

###### 各評価セットのスコア:Yiモデルとその他のオープンソースモデル

ただし、リリースでは、010000は、YiシリーズモデルがGSM8kおよびMBPPの数学的およびコード評価においてGPTモデルほどうまく機能しなかったとも述べています。

これは、チームが事前トレーニング フェーズでモデルの汎用機能をできるだけ多く保持したかったため、トレーニング データに数学とコードのデータが多すぎないようにしたためです。

現在、チームは数学の方向で研究を行っており、CoTとPoTを使用して数学の問題を解くことで一般的な数学の問題を解くことができ、すべてのスケールバージョンと内部および外部テストセットでSOTAモデルよりも優れている大規模モデルMammoTHを提案しています。 その中で、MammoTH-34BはMATHで44%の正解率を示しており、GPT-4のCoT結果を上回っています。

フォローアップのYiシリーズでは、コードと数学に特化した継続的なトレーニングモデルも開始します

目を見張るような結果に加えて、Yi-34Bは大きなモデルコンテキストウィンドウの長さを200Kに更新し、約400,000文字の超長いテキスト入力を処理できるようになりました。

これは、2つの「三体問題1」の小説を同時に処理、1000ページを超えるPDF文書を理解**、さらにはベクトルデータベースに依存して外部の知識ベースを構築する多くのシナリオを置き換えることができることと同等です。

非常に長いコンテキスト ウィンドウは、大規模なモデルの強度を反映する重要なディメンションであり、コンテキスト ウィンドウを長くすると、より豊富なナレッジ ベース情報を処理し、より一貫性のある正確なテキストを生成し、ドキュメントの要約や Q&A などのタスクをより適切に処理するために大規模なモデルをサポートできます。

大規模なモデル(金融、法律、金融など)の多くの垂直産業アプリケーションでは、ドキュメント処理機能のみが必要であることを知っておくことが重要です。

例えば、GPT-4は32K、約25,000文字、Claude 2は100K、約200,000文字をサポートできます。

Zero One Everythingは、業界記録を更新しただけでなく、オープンソースコミュニティで超長いコンテキストウィンドウを開いた最初の大規模モデル企業になりました。

では、Yiシリーズはどのように作られているのでしょうか?

Super Infra+ 自社開発トレーニングプラットフォーム

Zero One Ten Thousand Thingsは、Yiシリーズの秘密は2つの側面から来ていると述べています。

*自社開発の大規模トレーニング実験プラットフォーム *スーパーインフラチーム

上記の 2 つを組み合わせることで、大規模なモデルのトレーニング プロセスをより効率的、正確、かつ自動化できます。 現在のマルチモード近接では、貴重な時間、計算、人件費を節約できます。

大型モデルのYiシリーズが「遅い」理由の1つであると同時に、それゆえに「遅いことは速い」のです。

まず、モデルトレーニングの部分を見てみましょう。

これは、大規模モデルの能力の基礎を築く部分であり、トレーニングデータと方法の品質は、モデルの最終的な効果に直接関係します。

そのため、010000は独自のインテリジェントなデータ処理パイプラインと大規模なトレーニング実験プラットフォームを構築しました。

インテリジェントなデータ処理パイプラインは、効率的で、自動化され、評価可能で、スケーラブルであり、チームは元Googleビッグデータとナレッジグラフの専門家によって率いられています。

「大規模学習実験プラットフォーム」は、モデルの設計と最適化をガイドし、モデル学習効率を向上させ、コンピューティングリソースの無駄を減らすことができます。

このプラットフォームに基づいて、Yi-34Bの各ノードの予測誤差は、データマッチング、ハイパーパラメータ検索、モデル構造実験など、0.5%以内に制御されます。

その結果、以前の「広範な錬金術」トレーニングと比較して、Yiシリーズの大規模モデルのトレーニングは「モデルトレーニング科学」に進化しました:より詳細で科学的になり、実験結果がより安定し、モデルのスケールが将来さらに速く拡大できます。

インフラの部分を見てみましょう

AI インフラとは、人工知能の基本的なフレームワーク技術を指し、プロセッサ、オペレーティングシステム、ストレージシステム、ネットワークインフラストラクチャ、クラウドコンピューティングプラットフォームなど、大規模モデルのトレーニングと展開におけるさまざまな基盤となる技術施設が含まれます。

トレーニングプロセスがモデルの品質の基礎を築くことである場合、AI Infraはこのリンクを保証し、基盤をより強固にし、大規模モデルの最下層にも直接関係します。

Zero One Everythingのチームは、より鮮明な比喩を使って次のように説明しています。

大規模モデルのトレーニングが登山の場合、インフラの機能は、大規模モデルのトレーニング アルゴリズムとモデルの間の能力境界、つまり "登山の高さ" の上限を定義します。

特に、コンピューティングリソースが不足している現在、大規模モデルの研究開発をいかに早く、より着実に進めていくかが非常に重要です。

だからこそ、ゼロワンはインフラの部分をとても真剣に受け止めているのです。

Kai-Fu Lee氏はまた、大規模なモデルインフラをやったことのある人は、アルゴリズムの才能よりも希少であると述べています。

インフラチームは、数千億の大規模モデルの大規模なトレーニングのサポートに参加してきました。

彼らの支援により、Yi-34Bモデルのトレーニングコストは40%削減され、1000億元のシミュレーション規模のトレーニングコストは最大50%削減できます。 実際のトレーニングは、標準時間領域の予測時間を完了します誤差は1時間未満です-ご存知のように、一般的に業界は数日を誤差として取っておきます。

チームによると、これまで、010000インフラ機能のエラー予測精度は90%を超え、故障早期検出率は99.9%に達し、手動参加なしの故障自己修復率は95%を超えており、モデルトレーニングの円滑な進行を効果的に確保できます。

Kai-Fu Lee氏は、Yi-34Bの事前学習を完了し、1000億レベルのパラメータモデルの訓練が正式に開始されたことを明らかにした。

そして、より大きなモデルが誰もが予想していたよりも早く利用可能になる可能性が高いことを示唆しています。

Zero-Oneのデータ処理パイプライン、アルゴリズム研究、実験プラットフォーム、GPUリソース、AIインフラはすべて準備が整っており、私たちはますます速く行動していきます。

先制ゼロワンシングス

最後に、冒頭で述べた質問に答えましょう。

ゼロワンエブリシングが年末に「遅行」を選んだ理由は、実は自社の狙いと密接に関係している。

Kai-Fu Lee氏はこのリリースで次のように述べている。

ゼロワン エブリシングは、最初に採用した人から、最初のコードラインを書き、最初に設計されたモデルから、常に「世界No.1」になるという初心と決意を持って、世界一の目標にしっかりと入り込んできました。

そして、1人になるためには、デビュー時に大ヒットを成し遂げるために、気質に耐え、しっかりとした基盤を養うことに集中できる必要があります。

それだけでなく、ゼロワンシングスの設立当時は、その出発点が他の大規模模型メーカーとは根本的に異なっていました。

ゼロワンは、ゼロから1まで、そして宇宙のすべてのものまで、デジタル世界全体を表し、いわゆるタオは1つを生み出します... 万物を生むということは、「ゼロワンの知性、万物に力を与える」という野心を意味します。

これは、ChatGPTが大型モデルのブームを牽引した後、AI2.0に関するKai-Fu Lee氏の考え方と判断とも一致しており、彼はかつて次のように公に述べました。

AI 2.0の時代は、ペデスタルモデルのブレークスルーにより、テクノロジー、プラットフォーム、アプリケーションなど、さまざまなレベルで革命を起こすでしょう。 WindowsがPCの普及を牽引したように、Androidがモバイルインターネットのエコロジーを生み、AI2.0がモバイルインターネットの10倍のプラットフォームの機会を生み出し、既存のソフトウェア、ユーザーインターフェース、アプリケーションを書き換え、AIファーストの新しいアプリケーションを生み出し、AI主導のビジネスモデルを生み出します。

コンセプトはAIファーストで、原動力は技術的なビジョンであり、優れた中国のエンジニアリング遺産に裏打ちされており、ブレークスルーポイントは、複数のレベルのテクノロジー、プラットフォーム、アプリケーションをカバーするペデスタルモデルです。

そのために、ゼロワンが創業以来選択してきた起業ルートは、自社開発モデルです。

リリースが遅れましたが、速度的には確かに遅くはありません。

たとえば、最初の 3 か月で、010000000000 は 100 億個のパラメーターのスケールでモデル内部テストを達成しました。 さらに3ヶ月後には、34Bのパラメータスケールで世界初のアンロックが可能です。

このスピードと高い目標は、0100000000の背後にいる強力なチームの強さと切り離せないものに違いありません。

Zero One Everything**は、Kai-Fu Lee博士が自ら率い、CEOを務めています。

初期段階では、ゼロワンは数十人のコアメンバーからなるチームを結成し、大規模モデル技術、人工知能アルゴリズム、自然言語処理、システムアーキテクチャ、コンピューティングアーキテクチャ、データセキュリティ、製品研究開発などの分野に焦点を当てています。

その中で、合同チームのメンバーには、アリババの元副社長、百度の元副社長、グーグルチャイナの元幹部、マイクロソフト/SAP/シスコの元副社長が名を連ねており、アルゴリズムチームやプロダクトチームのバックグラウンドは、いずれも国内外の大手メーカー出身者です。

アルゴリズム・モデルチームのメンバーを例にとると、GPT-4に論文が引用されたアルゴリズムマスターや、マイクロソフトの社内研究賞を受賞した優秀な研究者、アリババCEO特別賞を受賞したスーパーエンジニアなどがいます。 合計で、ICLR、NeurIPS、CVPR、ICCVなどの有名な学会で大規模モデルに関連する100以上の学術論文を発表しています

さらに、010000は設立当初、実験的なプラットフォームの構築を開始し、トレーニング、チューニング、推論のために数千のGPUのクラスターを構築しています。 データに関しては、有効なパラメータの数と使用される高品質のデータの密度を改善することに主な焦点が当てられています。

このことから、ゼロワンの李系モデルの自信が、あえて後ろ向きに打つことにあるのかがよくわかります。

大規模なモデルのYiシリーズに基づいて、より定量的なバージョン、対話モデル、数学的モデル、コードモデル、マルチモーダルモデルを迅速に反復し、オープンソース化すると理解されています。

全体として、010,000個のもののダークホースの参入により、100モデルの戦いはより激しく、活気を帯びています。

今後、Yiシリーズの大型モデルがいくつの「世界初」を覆すのか、楽しみだ。

もう1つ

なぜ「李」という名前なのですか? **

名前の由来は「一」の拼音で、「Yi」の「Y」は逆さまになっており、漢字の「人間」に巧みに似ており、人間+AIを表すAIの「i」と組み合わされています。

私たちは、AIのエンパワーメントが人間社会を前進させるものであり、AIは人間を第一に考える精神で人間に大きな価値を創造すべきであると考えています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • 共有
コメント
0/400
WindfallWealthvip
· 2023-11-06 04:02
雷鳴は大きく、雨は小さい。
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)