データセットの全文技術ドキュメントである「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training(QVAC Genesis II:事前学習向け最大かつ最高品質のマルチドメイン教育用合成データセットを拡張)」は、QVACの研究ブログで公開されています。データセットおよび関連モデルへのアクセスはHugging Faceから可能です。
Tetherは、QVAC Genesis IIデータセットのリリースにより、Open AIトレーニングデータを拡大
トップのフィンテックニュースとイベントを見つけよう!
FinTech Weeklyのニュースレターに登録
JP Morgan、Coinbase、Blackrock、Klarnaなどの経営幹部が読む
オープンAI学習データにおける大規模な拡張
Tether Dataは、人工知能向けの合成教育データセットの新バージョンをリリースし、世界中の研究者に利用可能なオープン学習素材の量と範囲を大幅に増やしました。同社のAI研究部門であるQVACは、新リリースの名称をQVAC Genesis IIとし、これが既存データセットに1070億トークンを追加し、合計サイズを1480億トークンに引き上げると発表しました。
拡張されたこのデータセットは、AIの事前学習(pre-training)を目的として特別に設計された、公開されている合成教育リソースとして最大のものです。19の学術分野にまたがり、単なる表面的なパターン認識ではなく、モデルが推論、説明、意思決定をどのように学ぶかを向上させることを意図しています。
この発表は、多くの先進的な学習データセットがプロプライエタリなシステムの中に閉ざされたままである時期に、より透明でアクセスしやすいAI開発への一歩としてリリースを位置づけるものです。
最初のGenesisリリースを土台に
QVAC Genesis IIは、Genesis Iで最初に導入された取り組みに基づいています。Genesis Iは、コアとなる科学、技術、工学、数学(STEM)科目をカバーする、検証済みの教育中心型の合成データセットの作成に焦点を当てていました。先行リリースでは、推論精度を高めることを目的に、構造化された学習用質問を生成するための枠組みが確立されました。
新リリースでは、化学、コンピュータサイエンス、統計、機械学習、天文学、地理、計量経済学、電気工学を含む10の追加分野へのカバレッジを拡張しています。また、更新された手法を用いて再生成することで、概念の明確さを高めることを設計した大学レベルの物理コンテンツも再検討しています。
この2つのリリースを合わせることで、QVACが「これまでに一般公開された中で最も広範な合成教育データセット」であると説明するものが形成されています。このデータセットは、大規模言語モデル(LLM)や、構造化された学術資料を必要とするその他のAIシステムの事前学習に利用することを意図しています。
学習データがどのように生成されるかの転換
Genesis IIの中核には、Option-Level Reasoning(オプション・レベル推論)と呼ばれる新しいデータ生成手法があります。このアプローチは、多くの既存の合成データ技術とは異なり、誤答だけでなく正答にも焦点を当てています。
正しい回答をプロセスの終点として扱うのではなく、多肢選択式の質問に含まれる各選択肢を分析します。正しい選択肢は、それがなぜ正しいのかを強化するように分解され、誤った選択肢はよくある誤解に対処するために検討されます。この構造により、モデルは単に質問と結果を結びつけるのではなく、因果推論と意思決定ロジックを学習できます。
このアプローチは、Genesis Iで導入されたFailure Analysis(失敗分析)手法とも相補的です。Failure Analysisは、モデルの誤りから価値を抽出することに焦点を当てていました。2つの方法は一体となり、生成される各質問が教育的価値に寄与することを狙ったパイプラインを形成します。
QVACが挙げた独立した評価によると、Genesis IIデータで学習されたモデルは、より高い推論精度を示し、以前の合成データセットで学習されたモデルよりも明確な回答を生成します。
流暢さよりも理解を重視
現在のAI学習エコシステムの多くは、言語の流暢性を高めるために、非常に大量のテキスト(しばしば公開ソースからのスクレイピング)を組み立てることに依存しています。QVACが掲げる目標は、強調点が異なります。Genesisデータセットは、モデルに問題を推論して、結論を明確に説明する方法を教えるよう構造化されています。
企業のリーダーシップは、ありそうなテキストの並びを予測する学習システムを超えて、基礎となる概念を理解していることを示すモデルへ移行する意図があると示しています。データセットの設計は、明確さ、因果性、論理性を優先し、モデル出力における曖昧さを減らすことを目指しています。
このアプローチは、AIシステムが教育、科学、意思決定支援の文脈で使われるようになるにつれ、信頼性や説明可能性に関するAI研究のより広範な議論とも一致しています。
研究者・開発者向けのオープンアクセス
Genesisの元のデータセットと同様に、QVAC Genesis IIもオープンにリリースされています。このデータセットはCreative Commons Attribution–NonCommercial 4.0ライセンスの下で提供されており、研究者、学術機関、独立系の開発者が、商用の場面以外でデータを利用し、調査できます。
データセットと関連モデルはHugging Faceでホストされており、生成手法と評価結果を詳述した技術論文も併せて掲載されています。このオープンな配布は、大規模なプロプライエタリデータセットにアクセスできない研究者の障壁を下げることを意図しています。
非商用ライセンスを維持することで、QVACは、直接的な商業的な搾取を抑えつつ、学術およびコミュニティ主導の研究を支えることを目指します。
分散型AI開発の支援
このリリースは、分散型AI開発を後押しするためにTether Dataが追求しているより広い戦略にも合致しています。同社は、高品質な学習データは、集中型のクラウドインフラにアクセスできる組織に限定されるべきではないと述べています。
大規模で構造化されたデータセットを公に利用可能にすることで、QVACはAIモデルのローカル学習、実験、デプロイを可能にすることを目指しています。このアプローチは、計算資源が限られている可能性があっても、知的な貢献が依然として重要である研究環境を支えることを意図しています。
分散の重視は、少数の支配的なAIプラットフォームへの依存を減らし、より分散された研究エコシステムを育てたいという関心の高まりを反映しています。
AI研究におけるTetherの役割
QVACはTether DataのAI研究部門として機能しています。Tetherはデジタル資産やステーブルコインの役割で広く知られている一方で、同社は近年、データおよびAI研究へ活動を拡大しています。
QVACを通じてTether Dataは、オープンな研究を支えるインフラとリソースの構築に注力してきました。Genesisデータセットは、その取り組みの中でも最も可視性の高い成果の1つであり、オープンAI開発や教育重視の学習データに関する議論の中で同社を位置づけています。
この仕事はまた、フィンテック企業と先進的なAI研究の間で重なりが拡大していることも反映しています。金融テクノロジー企業がデータサイエンスや機械学習の能力への投資をますます進めているためです。
リリースに関する経営の見解
企業のリーダーシップは、Genesis IIリリースを「量だけを優先する」学習アプローチからの転換として位置づけています。Tetherの経営陣チームからの発言によれば、焦点は、流暢な応答を単に生成することではなく、AIシステムに回答が正しい理由を推論し、説明させることにあります。
Tetherの最高経営責任者(CEO)であるPaolo Ardoinoは、信頼できるAIは「答えがなぜ正しいのか」を理解に基づいているべきだと強調しています。さらに、データセットをオープンに利用可能にすることは、より強く、より説明可能なAIが社会全体にとって利益になるという考えを反映していると示しています。
これらの見解は、主として非構造化テキストで学習されたモデルの限界について研究者が提起している懸念とも響き合っています。
教育範囲とドメインカバレッジ
統合されたGenesis IおよびIIデータセットは19のドメインをカバーし、内容は中等教育および高等教育レベルで設計されています。基礎となる数学や物理から、計量経済学や機械学習といった応用分野まで、科目の範囲は多岐にわたります。
各ドメインには、構造化された質問、説明、推論の道筋が含まれており、概念が正式な教育環境でどのように教えられ、評価されるかを模倣することを意図しています。この設計は、論理的一貫性と概念的な深さを必要とする事前学習タスクを支えるためのものです。
改良された手法でコンテンツを再生成し、拡張することで、QVACは合成データセット内における教育素材の表現のあり方を洗練させることを目指しています。
評価とモデルのパフォーマンス
QVACが参照した社内および独立した評価によれば、Genesis IIデータで学習されたモデルは、推論比重の高いタスクにおいてパフォーマンスが向上しています。これには、構造化された質問への回答、結論の説明、曖昧または矛盾する応答の回避が含まれます。
評価結果は、Failure AnalysisとOption-Level Reasoningの組み合わせにより、より一貫した出力が得られることを示唆しています。同社はデータセットを単独の解決策として位置づけてはいないものの、さらなる学習やファインチューニングのための強固な基盤として提示しています。
研究者は、コミュニティでの利用が広がるにつれて、データセットに対して追加の評価を行うことが期待されています。
オープンAI研究への含意
このような大規模でオープンなデータセットのリリースは、学術および独立系の研究者がモデル学習にどう取り組むかに影響を与える可能性があります。この規模での構造化された教育データへのアクセスは、伝統的に資金が潤沢な組織に限られてきました。
代替案を提供することで、QVAC Genesis IIは、小規模モデルでの実験、ローカルな学習の取り組み、説明可能なAI手法の研究を支える可能性があります。
このデータセットはまた、単にサイズの大きさよりも推論の質を優先する、将来の合成データプロジェクトのベンチマークとして機能するかもしれません。
より広いAIエコシステムの中での位置づけ
QVAC Genesis IIは、急速な開発とリソースの集中が進むAIエコシステムに投入されます。最も能力の高い多くのモデルは、精査や再現のためにアクセスできないプロプライエタリデータセットで学習されています。
Genesis IIのようなオープンデータセットは、それに対するカウンターポイントを提供し、透明性と共有された進捗を可能にします。また、オープンなリソースが商用のAI開発とどのように共存しうるのかという問いも提起します。
フィンテックやデジタル資産に根差した企業が関与していることは、AI研究が、従来のテクノロジー企業だけでなく幅広い業界から関心を集めつつあることを示しています。
利用可能性と次のステップ
データセットの全文技術ドキュメントである「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training(QVAC Genesis II:事前学習向け最大かつ最高品質のマルチドメイン教育用合成データセットを拡張)」は、QVACの研究ブログで公開されています。データセットおよび関連モデルへのアクセスはHugging Faceから可能です。
QVACは、今後のリリースで自社の手法を引き続き洗練させ、教育範囲を拡張していく計画であることを示しています。研究コミュニティからのフィードバックが、次の反復を形作るうえで重要な役割を果たすことが期待されています。
オープンな基盤への継続的な推進
Genesis IIによって、QVACは、オープンで構造化された学習データが信頼できるAIシステムを構築するために不可欠であるという自社の立場を強化します。今回のリリースは、知能は単なる統計的な関連づけではなく、推論と説明に根ざすべきだという見方を反映しています。
AIシステムが教育、科学、そして金融サービス(フィンテック応用を含む)へより一層統合されていくにつれて、その学習データの質は引き続き中心的な懸念事項であり続けるでしょう。
現時点では、拡張されたGenesisデータセットは、オープンAI研究への注目すべき貢献として存在感を示しています。プロプライエタリな環境の外ではめったに見られない規模、構造、そしてアクセス可能性を提供しています。