テザー、QVACジェネシスIIデータセットのリリースでOpenAIトレーニングデータを拡大


トップフィンテックニュースとイベントを発見!

FinTech Weeklyのニュースレターに登録

JPモルガン、Coinbase、ブラックロック、Klarnaなどの幹部が読んでいます


オープンAIトレーニングデータの大規模拡張

テザー・データは、人工知能向けの合成教育データセットの新バージョンをリリースし、研究者が世界中で利用できるオープンなトレーニング資料の量と範囲を大幅に拡大しました。同社のAI研究部門、QVACは、新リリース「QVAC Genesis II」が従来のデータセットに1070億のトークンを追加し、合計で1480億のトークンになったと発表しました。

拡張されたデータセットは、AIの事前学習に特化して設計された、公開されている中で最大の合成教育リソースとなっています。19の学術分野にわたり、モデルの推論、説明、意思決定の学習を促進し、表層的なパターン認識ではなく深い理解を促すことを目的としています。

この発表は、多くの高度なトレーニングデータセットが依然として独自システム内に閉じられている現状に対し、より透明でアクセスしやすいAI開発への一歩と位置付けられています。

最初のGenesisリリースを基盤に

QVAC Genesis IIは、最初に導入されたGenesis Iの取り組みを土台としています。Genesis Iは、科学、技術、工学、数学のコア科目をカバーする検証済みの教育中心の合成データセットの作成に焦点を当てていました。その前のリリースは、推論の正確性を向上させるための構造化されたトレーニング質問の生成フレームワークを確立しました。

新リリースでは、化学、コンピュータサイエンス、統計学、機械学習、天文学、地理学、計量経済学、電気工学など、さらに10の分野を拡大しています。また、大学レベルの物理内容も見直し、概念の明確さを向上させる新しい手法で再生成しています。

これら二つのリリースは、QVACが「これまでで最も広範な合成教育データセット」として公開したものであり、構造化された学術資料を必要とする大規模言語モデルやその他のAIシステムの事前学習に利用されることを意図しています。

トレーニングデータ生成の新たなアプローチ

Genesis IIの核となるのは、「オプションレベル推論」と呼ばれる新しいデータ生成手法です。このアプローチは、多くの既存の合成データ技術とは異なり、誤答だけでなく正答にも焦点を当てています。

正解を単なる終点とせず、多肢選択問題のすべての選択肢を分析します。正解は、その正しさを強化するために分解され、誤答は一般的な誤解を解消するために検討されます。この構造により、モデルは因果推論や意思決定のロジックを学習し、単なる質問と結果の関連付けにとどまらない理解を深めることが可能となります。

この手法は、Genesis Iで導入された「失敗分析」手法を補完し、モデルの誤りから価値を抽出することに焦点を当てています。両者は、生成される各質問が教育的価値を持つよう設計されたパイプラインを形成しています。

QVACが引用した独立評価によると、Genesis IIのデータで訓練されたモデルは、推論の正確さが向上し、以前の合成データセットよりも明確な回答を生成する傾向があると示されています。

理解重視のアプローチ

現在のAIトレーニングエコシステムの多くは、公開ソースからスクレイピングした大量のテキストを集めて言語の流暢さを向上させることに重点を置いています。一方、QVACの目的は異なり、モデルに問題を推論させ、明確に結論を説明させることに重点を置いています。

同社のリーダーシップは、単にテキストのシーケンスを予測するだけの訓練から、根底にある概念の理解を示すモデルへと移行する意向を示しています。データセットの設計は、明快さ、因果関係、論理性を優先し、モデル出力の曖昧さを減らすことを目指しています。

このアプローチは、AIの信頼性や説明性に関する広範な議論とも一致し、教育、科学、意思決定支援の場面でのAIシステムの利用において重要視されています。

研究者・開発者向けのオープンアクセス

オリジナルのGenesisデータセットと同様に、QVAC Genesis IIも公開されています。クリエイティブ・コモンズ 表示-非営利 4.0ライセンスの下で提供され、研究者、学術機関、独立系開発者が商用外でデータを利用・研究できるようになっています。

データセットと関連モデルはHugging Faceにホストされており、生成手法や評価結果を詳述した技術論文も公開されています。このオープン配布は、大規模な独自データセットにアクセスできない研究者の障壁を下げることを目的としています。

非商用ライセンスを維持することで、QVACは学術研究やコミュニティ主導の研究を支援しつつ、直接的な商業利用を制限しています。

分散型AI開発の支援

このリリースは、テザー・データが推進する分散型AI開発の戦略とも合致しています。同社は、高品質なトレーニングデータは中央集権的クラウドインフラにアクセスできる組織だけのものではないと述べています。

大規模で構造化されたデータセットを公開することで、ローカルでのトレーニングや実験、AIモデルの展開を可能にし、計算リソースが限られる環境でも知的貢献を促進しようとしています。

この分散化の強調は、少数の支配的なAIプラットフォームへの依存を減らし、より分散された研究エコシステムを育成する動きの一環です。

テザーのAI研究における役割

QVACは、テザー・データのAI研究部門として活動しています。テザーはデジタル資産やステーブルコインで広く知られていますが、近年はデータとAI研究にも事業を拡大しています。

QVACを通じて、テザー・データはオープンな研究を支援するインフラやリソースの構築に注力しています。Genesisデータセットは、その努力の中で最も顕著な成果の一つであり、オープンAI開発や教育重視のトレーニングデータに関する議論の中で同社の位置付けを強めています。

この取り組みは、フィンテック企業と先進的なAI研究の融合を反映し、金融技術企業がデータサイエンスや機械学習に投資を拡大している現状とも一致しています。

リリースに対する経営陣の見解

会社のリーダーシップは、Genesis IIのリリースを、単にボリュームを重視したトレーニング手法からの脱却と位置付けています。Tetherの幹部の発言によると、AIシステムに推論や説明をさせることに重点を置き、単に流暢な応答を生成させるだけではないとしています。

TetherのCEO、パオロ・アルドイノは、信頼できるAIはなぜ答えが正しいのかを理解しているべきだと強調し、データセットを公開することは、より強力で説明可能なAIが社会に利益をもたらすと信じている表れだと述べています。

これらの見解は、未構造化テキストを主な訓練データとするモデルの限界について研究者が提起してきた懸念とも共鳴しています。

教育的範囲とドメインのカバレッジ

Genesis IとIIの合計データセットは、19の分野をカバーし、中学・高校・大学レベルの内容を含みます。対象科目は、基礎的な数学や物理から、計量経済学や機械学習などの応用分野まで多岐にわたります。

各分野には、構造化された質問、解説、推論の道筋が含まれ、概念の教育や評価において重要な論理的一貫性と深さを持たせる設計となっています。内容の再生成と拡張により、教育資料の表現方法の改善を目指しています。

評価とモデルのパフォーマンス

QVACが引用した内部および独立評価によると、Genesis IIのデータで訓練されたモデルは、推論を重視したタスクで性能が向上しています。これには、構造化された質問への回答、結論の説明、曖昧さや矛盾を避ける回答などが含まれます。

評価結果は、「失敗分析」と「オプションレベル推論」の組み合わせが、より一貫性のある出力をもたらすことを示唆しています。データセットを単独の解決策として位置付けていませんが、さらなる訓練や微調整の基盤として有望としています。

今後、コミュニティでの利用拡大に伴い、追加の評価が行われる見込みです。

オープンAI研究への影響

このような大規模でオープンなデータセットのリリースは、学術界や独立研究者のモデル訓練へのアプローチに影響を与える可能性があります。これまで、構造化された教育データへのアクセスは限られていました。

代替手段として、QVAC Genesis IIは、小規模モデルやローカル訓練、説明可能なAIの研究を支援し得るものです。

また、推論の質を重視した合成データのベンチマークとしても役立つ可能性があります。

AIエコシステム内での位置付け

QVAC Genesis IIは、急速な発展とリソース集中が進むAIエコシステムに位置します。多くの高性能モデルは、アクセスできない独自データセットで訓練されています。

一方、Genesis IIのようなオープンデータセットは、透明性と共有の進展を促進します。商用AI開発と共存させる方法についても議論を呼び起こしています。

フィンテックやデジタル資産に根ざす企業の関与は、AI研究が伝統的なテクノロジー企業以外の産業にも広がっていることを示しています。

入手方法と今後の展望

「QVAC Genesis II:最大かつ最高品質のマルチドメイン教育合成データセットの拡張」と題された技術ドキュメントは、QVACの研究ブログに掲載されています。データセットと関連モデルはHugging Faceから入手可能です。

QVACは、今後も手法の改良や教育範囲の拡大を進める計画を示しており、研究コミュニティからのフィードバックが次期リリースに反映される見込みです。

オープン基盤の継続的推進

Genesis IIを通じて、QVACは、オープンで構造化されたトレーニングデータこそ信頼できるAI構築の鍵であると位置付けています。知性は、単なる統計的関連付けではなく、推論と説明に基づくべきだと考えています。

AIシステムが教育、科学、金融サービス、フィンテックアプリケーションにより深く浸透する中で、そのトレーニングデータの質は引き続き重要な課題です。

現時点では、拡大されたGenesisデータセットは、規模、構造、アクセス性の面で、商用環境外では稀有な貢献となっています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし