Tetherは、QVAC Genesis IIデータセットのリリースにより、Open AIトレーニングデータを拡大


トップのフィンテックニュースとイベントを発見!

FinTech Weeklyのニュースレターを購読

JP Morgan、Coinbase、Blackrock、Klarnaなどのエグゼクティブに読まれる


Open AIの学習データにおける大規模な拡張

Tether Dataは、人工知能向けの合成教育データセットの新バージョンを公開し、世界中の研究者が利用できるオープンな学習素材の量と範囲を大幅に拡大しました。同社のAI研究部門であるQVACは、新リリース(QVAC Genesis IIと呼ばれる)が、先行データセットに1070億トークンを追加し、総規模を1480億トークンに引き上げたと発表しました。

拡張されたデータセットは、AIの事前学習(pre-training)を目的として特別に設計された、公開されている合成教育リソースとしては最大規模になりました。19の学術分野にまたがり、表面的なパターン認識ではなく、モデルが推論、説明、意思決定をどのように学ぶかを改善することを意図しています。

この発表は、先進的な学習データセットの多くが専有システムの中に閉じ込められたままである状況において、より透明でアクセスしやすいAI開発に向けた一歩としてリリースを位置づけています。

最初のGenesisリリースを土台に

QVAC Genesis IIは、Genesis Iで最初に導入された取り組みに基づいています。Genesis Iは、コアとなる科学、技術、工学、数学の科目を対象に、教育に重点を置いた検証済みの合成データセットを作成することに焦点を当てていました。この先行リリースは、推論の精度を高めることを目的とした、構造化された学習用質問を生成するための枠組みを確立しました。

新リリースでは、化学、コンピュータサイエンス、統計、機械学習、天文学、地理学、計量経済学、電気工学を含む10の追加分野までカバー範囲を拡大しています。また、大学レベルの物理コンテンツも見直し、概念の明確さを高めることを目的にした更新された手法で再生成しています。

2つのリリースを合わせることで、QVACが「これまでに公開されるようになった中で最も大規模な合成教育データセット」と説明するものが形成されます。このデータセットは、大規模言語モデルや、構造化された学術資料を必要とするその他のAIシステムの事前学習に利用することを意図しています。

学習データがどう生成されるかの転換

Genesis IIの中核には、Option-Level Reasoningと呼ばれる新しいデータ生成手法があります。このアプローチは、多くの既存の合成データ技術と異なり、不正解だけでなく正解にも焦点を当てます。

正しい回答をプロセスの終点として扱うのではなく、その手法は、複数選択式の質問におけるすべての選択肢を分析します。正しい選択肢は、それがなぜ正しいのかを補強するように分解され、不正解の選択肢は、よくある誤解に対処するために検討されます。この構造により、モデルは、質問を結果と結びつけるだけでなく、因果推論と意思決定ロジックを学習できます。

このアプローチは、Genesis Iで導入されたFailure Analysisメソッドとも相補的です。Failure Analysisは、モデルの誤りから価値を引き出すことに焦点を当てていました。合わせると、各生成質問が教育的価値を生み出すよう設計されたパイプラインになります。

QVACが引用した独立評価によると、Genesis IIデータで学習したモデルは、推論精度が高く、以前の合成データセットで学習したモデルよりも、より明確な回答を生成することが示されています。

流暢さより理解を重視

現在のAI学習エコシステムの多くは、言語の流暢性を高めるために、公的ソースからスクレイピングされることが多い膨大なテキストを組み立てることに依存しています。QVACの明言した目標は、その重点が異なります。Genesisデータセットは、モデルが問題を通じてどのように推論し、結論を明確に説明するかを学べるよう構造化されています。

同社の経営陣は、ありそうな文章の並びを予測するような学習システムを超えて、基礎となる概念を理解していることを示すモデルへ移行する意図だと示しています。データセット設計は、明確さ、因果性、論理を優先し、モデル出力における曖昧さを減らすことを目指しています。

このアプローチは、特にAIシステムが教育、科学、意思決定支援の文脈で使われるようになっていることを背景に、AI研究における信頼性と説明可能性に関するより広範な議論とも整合しています。

研究者と開発者のためのオープンアクセス

Genesisデータセットのオリジナルと同様に、QVAC Genesis IIもオープンにリリースされています。データセットはCreative Commons Attribution–NonCommercial 4.0ライセンスの下で提供されており、研究者、学術機関、独立した開発者が商用環境の外でデータを利用し、研究できるようにしています。

データセットおよび関連モデルはHugging Faceでホストされており、生成手法と評価結果を詳述した技術論文も併せて掲載されています。このオープンな配布は、大規模な専有データセットにアクセスできない研究者の障壁を下げることを意図しています。

非商用のライセンスを維持することで、QVACは、直接的な商用の搾取を抑えつつ、学術およびコミュニティ主導の研究を支援することを目指しています。

分散型AI開発を支える

このリリースは、Tether Dataが掲げる分散型AI開発を促すより大きな戦略にも合致しています。同社は、高品質な学習データは、中央集権型のクラウド基盤にアクセスできる組織に限定されるべきではないと述べています。

大規模で構造化されたデータセットを公開することで、QVACはAIモデルのローカル学習、実験、デプロイを可能にすることを狙っています。このアプローチは、計算リソースが限られている可能性がある研究環境でも、知的な貢献が依然として重要であることを支えることを意図しています。

分散化への重視は、少数の支配的なAIプラットフォームへの依存を減らし、より分散された研究エコシステムを育てたいという関心の高まりを反映しています。

AI研究におけるTetherの役割

QVACはTether DataのAI研究部門として機能しています。Tetherはデジタル資産やステーブルコインの役割で広く知られていますが、同社は近年、データとAI研究に活動を拡大しています。

QVACを通じて、Tether Dataはオープンな研究を支えるインフラとリソースの構築に注力してきました。Genesisデータセットは、その取り組みの中でも最も目に見える成果の一つであり、オープンなAI開発や教育目的の学習データをめぐる議論の中で同社を位置づけています。

この取り組みは、フィンテック企業と先進的なAI研究の重なりが拡大していることも示しています。金融テクノロジー企業がますますデータサイエンスや機械学習の能力に投資するようになっているためです。

リリースに関するリーダーシップの視点

同社の経営陣は、Genesis IIのリリースを「量だけを優先する学習アプローチからの転換」として位置づけています。Tetherのエグゼクティブチームからの声明によれば、焦点は、単に流暢な応答を生成することではなく、AIシステムに対して、推論し、説明する方法を教えることにあります。

Tetherの最高経営責任者(CEO)であるPaolo Ardoinoは、信頼できるAIは「回答がなぜ正しいのか」という理解に基づいているべきだと強調しています。データセットをオープンに利用可能にすることは、より強力で、より説明可能なAIが社会全体に利益をもたらすという考えを反映しているのだと示しました。

これらの見解は、主に非構造化テキストで学習されたモデルの限界について、研究者が提起してきた懸念とも呼応しています。

教育の範囲と分野のカバー範囲

Genesis IとIIの統合データセットは19の分野をカバーし、内容は中等教育および高等教育レベル向けに設計されています。基礎的な数学や物理から、計量経済学や機械学習といった応用分野まで、幅広い科目が含まれます。

各分野には、構造化された質問、説明、推論の経路が含まれており、正式な教育環境で概念がどのように教えられ、評価されるかを模倣することを意図しています。この設計は、論理的一貫性と概念の深さを必要とする事前学習タスクを支えるためのものです。

改善された手法を用いてコンテンツを再生成し、拡張することで、QVACは合成データセット内で教育コンテンツがどのように表現されるかを洗練させることを目指しています。

評価とモデルのパフォーマンス

QVACが参照する社内および独立評価によれば、Genesis IIデータで学習したモデルは、推論比重の高いタスクで性能が向上しています。具体的には、構造化された質問への回答、結論の説明、曖昧または矛盾する応答を避けることなどが含まれます。

評価結果は、Failure AnalysisとOption-Level Reasoningを組み合わせることで、より一貫した出力につながることを示唆しています。同社はデータセットを単独の解決策として位置づけてはいないものの、さらなる学習や微調整のための強力な土台として提示しています。

データセットがコミュニティ内でより広く利用されるに従い、研究者には追加の評価を行うことが期待されています。

オープンなAI研究への示唆

このような大規模でオープンなデータセットのリリースは、学術および独立系の研究者がモデル学習へアプローチする方法に影響を与える可能性があります。これほどの規模で構造化された教育データにアクセスできることは、これまで、十分な資金を持つ組織に限られてきました。

代替手段を提供することで、QVAC Genesis IIは、小規模モデルでの実験、ローカルな学習の取り組み、説明可能なAI手法の研究を支える可能性があります。

このデータセットは、今後の合成データプロジェクトにおいて、単なるサイズよりも推論の質を優先するためのベンチマークとして機能するかもしれません。

より広いAIエコシステムの中での位置づけ

QVAC Genesis IIは、急速な開発とリソースの集中が進むAIエコシステムに投入されます。最も能力の高い多くのモデルは、検証や複製ができない専有データセットで学習されています。

Genesis IIのようなオープンデータセットは、その対極を提供し、透明性と共有された進歩を可能にします。また、オープンなリソースが商用AI開発とどのように共存できるのかという問いも提起します。

フィンテックとデジタル資産に根ざした企業の関与は、AI研究が、従来のテクノロジー企業にとどまらず幅広い業界から関心を集めていることを示しています。

利用可能性と次のステップ

データセットの全体的な技術ドキュメンテーション(「QVAC Genesis II: 事前学習のための最大かつ最高品質のマルチドメイン教育用合成データセットの拡張」)は、QVACの研究ブログで公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて利用できます。

QVACは、今後のリリースにおいて自社の手法を継続的に改良し、教育範囲を拡大していく計画だと示しています。研究コミュニティからのフィードバックは、後続の反復版の形を決める上で役割を果たすことが期待されています。

オープンな基盤への継続的な推進

Genesis IIによって、QVACは、信頼できるAIシステムを構築するためには、オープンで構造化された学習データが不可欠だという立場を改めて強調します。このリリースは、知性は統計的な関連付けだけでなく、推論と説明に基づいているべきだ、という見方を反映しています。

AIシステムが教育、科学、金融サービス(フィンテックを含む)にさらに統合されていくにつれて、その学習データの品質は引き続き重要な懸念事項であり続けます。

現時点で拡張されたGenesisデータセットは、オープンなAI研究への注目すべき貢献として存在感を示しており、専有環境の外で見られることが稀な規模、構造、そしてアクセス可能性を提供しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.3K保有者数:2
    0.22%
  • 時価総額:$2.31K保有者数:2
    0.29%
  • 時価総額:$2.24K保有者数:1
    0.00%
  • 時価総額:$2.24K保有者数:1
    0.00%
  • 時価総額:$2.25K保有者数:1
    0.00%
  • ピン