* * ***トップのフィンテックニュースとイベントを見つけよう!****FinTech Weeklyのニュースレターを購読する****JP Morgan、Coinbase、Blackrock、Klarnaなどの経営陣が読んでいます*** * ***Open AIのトレーニングデータにおける大規模な拡張**----------------------------------------------Tether Dataは、人工知能向けの合成教育データセットの新しいバージョンをリリースしました。これにより、世界中の研究者が利用できるオープントレーニング素材の量と範囲が大幅に増えています。同社のAI研究部門であるQVACは、新リリース(QVAC Genesis IIと呼ばれる)が、従来のデータセットに1070億トークンを追加し、合計規模を1480億トークンに引き上げると発表しました。拡張されたデータセットは現在、AIの事前学習(pre-training)向けに特化して設計された、公開されている合成教育リソースとして最大規模です。19の学術分野にまたがり、表面的なパターン認識ではなく、モデルが推論、説明、意思決定をどのように学ぶかを向上させることを目的としています。この発表は、先進的なトレーニングデータセットの多くがプロプライエタリなシステムの中に閉じ込められたままである時期に、より透明でアクセスしやすいAI開発への一歩として位置付けられています。**最初のGenesisリリースを土台に**-----------------------------------------QVAC Genesis IIは、Genesis Iで初めて導入された取り組みに基づいています。Genesis Iは、コアとなる理学、技術、工学、数学の科目をカバーする、検証済みで教育中心の合成データセットの作成に焦点を当てていました。この先行リリースでは、推論の正確性を高めることを狙った、構造化されたトレーニング問題を生成するための枠組みが確立されました。新リリースでは、化学、コンピュータサイエンス、統計、機械学習、天文学、地理学、計量経済学、電気工学など、10の追加分野へのカバレッジが拡張されています。また、大学レベルの物理コンテンツも再検討し、概念の明瞭さを高めることを目的とした更新された手法で再生成しています。この2つのリリースは、QVACが「これまでに公に利用可能にされた中で最も大規模な合成教育データセット」と説明するものを構成します。このデータセットは、大規模言語モデルや、構造化された学術資料を必要とするその他のAIシステムの事前学習に使用することを意図しています。**トレーニングデータの生成方法の転換**---------------------------------------------Genesis IIの中核にあるのは、Option-Level Reasoningと呼ばれる新しいデータ生成手法です。このアプローチは、多くの既存の合成データ技術と異なり、不正解だけでなく正解にも焦点を当てています。正しい回答をプロセスの終点として扱うのではなく、この手法は多肢選択問題のすべての選択肢を分析します。正しい選択は、それがなぜ正しいのかを補強するように分解され、不正解の選択肢はよくある誤解に対処するために検討されます。この構造により、モデルは単に質問と結果を結び付けるだけでなく、因果推論と意思決定ロジックを学ぶことが可能になります。このアプローチは、Genesis Iで導入されたFailure Analysisメソッドと相補的です。Genesis IのFailure Analysisは、モデルの誤りから価値を抽出することに焦点を当てていました。2つの手法は合わせて、生成される各問題が教育的な価値を生み出すよう設計されたパイプラインを形成します。QVACが挙げた独立評価によれば、Genesis IIデータで学習したモデルは、より高い推論精度を示し、以前の合成データセットで学習したモデルよりも明確な回答を生成します。**流暢さよりも理解を重視**------------------------------------------現在のAIトレーニング・エコシステムの多くは、言語の流暢さを高めるために非常に大量のテキストを組み立てることに依存しており、しばしば公開ソースからスクレイピングされています。QVACが掲げる目標は、この点で重点が異なります。Genesisデータセットは、モデルが問題を通じてどのように推論し、結論を明確に説明するかを学べるように構造化されています。企業の経営陣は、もっともらしいテキストの並びを予測するトレーニングシステムを超えて、根底にある概念の理解を示すモデルへ移行する意図があることを示しています。データセット設計は、明瞭さ、因果関係、論理を優先し、モデル出力における曖昧さを減らすことを狙っています。このアプローチは、AI研究における信頼性と説明可能性に関するより広範な議論とも整合しています。とりわけ、AIシステムが教育、科学、意思決定支援の文脈で使われる場合に重要になります。**研究者と開発者のためのオープンアクセス**----------------------------------------------Genesisの元のデータセットと同様に、QVAC Genesis IIもオープンにリリースされています。データセットはCreative Commons Attribution–NonCommercial 4.0ライセンスのもとで提供されており、研究者、学術機関、独立系の開発者が、商業的な場面を外れてデータを利用し、調査することを可能にします。データセットおよび関連モデルはHugging Faceでホストされており、生成手法と評価結果を詳述した技術論文も併せて公開されています。このオープンな配布は、大規模なプロプライエタリ・データセットへのアクセスがない研究者の障壁を下げることを意図しています。非商用のライセンシングを維持することで、QVACは、直接的な商業的悪用を抑えつつ、学術およびコミュニティ主導の研究を支えることを目指しています。**分散型AI開発を支える**-------------------------------------------このリリースは、Tether Dataが掲げる分散型AI開発を後押しするより広い戦略にも適合しています。同社は、高品質なトレーニングデータは、集約されたクラウド基盤へのアクセスを持つ組織に限定されるべきではないと述べています。大規模で構造化されたデータセットを公開することで、QVACはAIモデルのローカルトレーニング、実験、展開を可能にしようとしています。このアプローチは、計算資源(compute resources)が限られる可能性がある研究環境でも、知的な貢献が依然として重要であり得ることを支援することを意図しています。分散化への重点は、少数の支配的なAIプラットフォームへの依存を減らし、より分散された研究エコシステムを育むことへの関心が高まっていることを反映しています。**AI研究におけるTetherの役割**--------------------------------QVACはTether DataのAI研究部門として機能しています。Tetherはデジタルアセットやステーブルコインの役割で広く知られていますが、同社は近年、データとAI研究へ活動を拡大しています。QVACを通じて、Tether Dataはオープンな研究を支えるインフラとリソースの構築に注力してきました。Genesisデータセットは、その取り組みの中で最も目に見える成果の一つであり、オープンなAI開発や教育重視のトレーニングデータをめぐる議論の中で同社の立ち位置を示しています。この取り組みはまた、フィンテック企業と高度なAI研究の重なりが拡大していることも反映しています。金融テクノロジー企業がデータサイエンスや機械学習能力への投資をますます進めているからです。**リリースに関する経営者の見解**-----------------------------------------会社の経営陣はGenesis IIのリリースを、量だけを優先するトレーニング手法からの転換として位置付けています。Tetherの経営陣チームからの発言によれば、焦点は、単に流暢な応答を生成することではなく、AIシステムに「なぜその答えが正しいのか」を推論し説明できるよう教えることにあります。Tetherの最高経営責任者(CEO)であるPaolo Ardoinoは、信頼できるAIは、答えが正しい理由の理解に根ざすべきだと強調しています。また、データセットをオープンに利用可能にすることは、より強く、より説明可能なAIが社会全体に利益をもたらすという考えを反映していると述べています。これらの見解は、主に構造化されていないテキストで学習したモデルが持つ限界について、研究者が提起している懸念とも呼応しています。**教育の範囲と領域のカバー**-----------------------------------------統合されたGenesis IおよびIIデータセットは19の領域をカバーし、内容は中等教育および高等教育のレベルを対象に設計されています。基礎的な数学や物理から、計量経済学や機械学習といった応用分野まで幅広く扱います。各領域には、構造化された問題、説明、そして推論の道筋が含まれており、形式知的な教育の場において概念が教えられ、評価される方法を模倣することを意図しています。この設計は、論理的一貫性と概念的な深さを必要とする事前学習タスクを支援することを目的としています。改善された手法でコンテンツを再生成し、拡張することで、QVACは合成データセットにおける教育コンテンツの表現方法を洗練させることを目指しています。**評価とモデルのパフォーマンス**------------------------------------QVACが言及した社内および独立評価によれば、Genesis IIデータで学習したモデルは、推論比重の高いタスクで性能が向上しています。これには、構造化された問題への回答、結論の説明、曖昧または矛盾する応答の回避が含まれます。評価結果は、Failure AnalysisとOption-Level Reasoningの組み合わせにより、より一貫した出力が得られることを示唆しています。同社はデータセットを単独の解決策として位置付けているわけではありませんが、さらなる学習(training)やファインチューニングのための強固な基盤として提示しています。データセットがコミュニティでより広く使われるにつれ、研究者には追加の評価を行うことが期待されています。**オープンAI研究への示唆**-------------------------------------このような大規模でオープンなデータセットのリリースは、学術機関や独立系研究者がモデル学習にどう取り組むかに影響を与える可能性があります。同規模の構造化された教育データへのアクセスは、これまで伝統的に、資金の潤沢な組織に限られてきました。代替手段を提供することで、QVAC Genesis IIは、小規模モデルでの実験、ローカライズされたトレーニングの取り組み、説明可能なAIの手法に関する研究を支援し得ます。このデータセットはまた、単なる規模の大きさよりも推論品質を優先する将来の合成データプロジェクトにおけるベンチマークとして機能する可能性もあります。**より広いAIエコシステムの中での位置づけ**--------------------------------------------QVAC Genesis IIは、急速な発展とリソースの集中が進む特徴を持つAIエコシステムに参入します。最も能力の高い多くのモデルは、監査や再現のために利用できないプロプライエタリ・データセットで学習されています。Genesis IIのようなオープンデータセットは、その対極として透明性と共有された進歩を可能にします。また、オープンなリソースが商業的なAI開発とどのように共存し得るのかという問いも投げかけます。フィンテックとデジタルアセットに根ざした企業の関与は、AI研究が、従来のテクノロジー企業だけでなく、幅広い業界から関心を集めていることを示しています。**利用可能性と次のステップ**-------------------------------データセットの完全な技術ドキュメント(“QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”)は、QVACの研究ブログで公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて利用可能です。QVACは、今後のリリースで自社の手法を継続的に改良し、教育カバレッジを拡張していく予定だと示しています。研究コミュニティからのフィードバックは、後続の反復版の形成において役割を果たすことが期待されています。**オープンな基盤への継続的な後押し**------------------------------------------Genesis IIによって、QVACは、オープンで構造化されたトレーニングデータが信頼できるAIシステムを構築する上で不可欠だという立場を強化しています。このリリースは、知性は統計的な関連付けだけでなく、推論と説明に根ざすべきだという見方を反映しています。AIシステムが教育、科学、金融サービス(フィンテックの用途を含む)へとより一体化していくにつれ、それらのトレーニングデータの品質は引き続き中核的な懸念であり続けるでしょう。現時点では、拡張されたGenesisデータセットはオープンAI研究における注目すべき貢献として位置付けられています。プロプライエタリな環境の外で見られることが稀なレベルで、規模、構造、アクセスしやすさを提供しているからです。
Tetherは、QVAC Genesis IIデータセットのリリースにより、Open AIトレーニングデータを拡大
トップのフィンテックニュースとイベントを見つけよう!
FinTech Weeklyのニュースレターを購読する
JP Morgan、Coinbase、Blackrock、Klarnaなどの経営陣が読んでいます
Open AIのトレーニングデータにおける大規模な拡張
Tether Dataは、人工知能向けの合成教育データセットの新しいバージョンをリリースしました。これにより、世界中の研究者が利用できるオープントレーニング素材の量と範囲が大幅に増えています。同社のAI研究部門であるQVACは、新リリース(QVAC Genesis IIと呼ばれる)が、従来のデータセットに1070億トークンを追加し、合計規模を1480億トークンに引き上げると発表しました。
拡張されたデータセットは現在、AIの事前学習(pre-training)向けに特化して設計された、公開されている合成教育リソースとして最大規模です。19の学術分野にまたがり、表面的なパターン認識ではなく、モデルが推論、説明、意思決定をどのように学ぶかを向上させることを目的としています。
この発表は、先進的なトレーニングデータセットの多くがプロプライエタリなシステムの中に閉じ込められたままである時期に、より透明でアクセスしやすいAI開発への一歩として位置付けられています。
最初のGenesisリリースを土台に
QVAC Genesis IIは、Genesis Iで初めて導入された取り組みに基づいています。Genesis Iは、コアとなる理学、技術、工学、数学の科目をカバーする、検証済みで教育中心の合成データセットの作成に焦点を当てていました。この先行リリースでは、推論の正確性を高めることを狙った、構造化されたトレーニング問題を生成するための枠組みが確立されました。
新リリースでは、化学、コンピュータサイエンス、統計、機械学習、天文学、地理学、計量経済学、電気工学など、10の追加分野へのカバレッジが拡張されています。また、大学レベルの物理コンテンツも再検討し、概念の明瞭さを高めることを目的とした更新された手法で再生成しています。
この2つのリリースは、QVACが「これまでに公に利用可能にされた中で最も大規模な合成教育データセット」と説明するものを構成します。このデータセットは、大規模言語モデルや、構造化された学術資料を必要とするその他のAIシステムの事前学習に使用することを意図しています。
トレーニングデータの生成方法の転換
Genesis IIの中核にあるのは、Option-Level Reasoningと呼ばれる新しいデータ生成手法です。このアプローチは、多くの既存の合成データ技術と異なり、不正解だけでなく正解にも焦点を当てています。
正しい回答をプロセスの終点として扱うのではなく、この手法は多肢選択問題のすべての選択肢を分析します。正しい選択は、それがなぜ正しいのかを補強するように分解され、不正解の選択肢はよくある誤解に対処するために検討されます。この構造により、モデルは単に質問と結果を結び付けるだけでなく、因果推論と意思決定ロジックを学ぶことが可能になります。
このアプローチは、Genesis Iで導入されたFailure Analysisメソッドと相補的です。Genesis IのFailure Analysisは、モデルの誤りから価値を抽出することに焦点を当てていました。2つの手法は合わせて、生成される各問題が教育的な価値を生み出すよう設計されたパイプラインを形成します。
QVACが挙げた独立評価によれば、Genesis IIデータで学習したモデルは、より高い推論精度を示し、以前の合成データセットで学習したモデルよりも明確な回答を生成します。
流暢さよりも理解を重視
現在のAIトレーニング・エコシステムの多くは、言語の流暢さを高めるために非常に大量のテキストを組み立てることに依存しており、しばしば公開ソースからスクレイピングされています。QVACが掲げる目標は、この点で重点が異なります。Genesisデータセットは、モデルが問題を通じてどのように推論し、結論を明確に説明するかを学べるように構造化されています。
企業の経営陣は、もっともらしいテキストの並びを予測するトレーニングシステムを超えて、根底にある概念の理解を示すモデルへ移行する意図があることを示しています。データセット設計は、明瞭さ、因果関係、論理を優先し、モデル出力における曖昧さを減らすことを狙っています。
このアプローチは、AI研究における信頼性と説明可能性に関するより広範な議論とも整合しています。とりわけ、AIシステムが教育、科学、意思決定支援の文脈で使われる場合に重要になります。
研究者と開発者のためのオープンアクセス
Genesisの元のデータセットと同様に、QVAC Genesis IIもオープンにリリースされています。データセットはCreative Commons Attribution–NonCommercial 4.0ライセンスのもとで提供されており、研究者、学術機関、独立系の開発者が、商業的な場面を外れてデータを利用し、調査することを可能にします。
データセットおよび関連モデルはHugging Faceでホストされており、生成手法と評価結果を詳述した技術論文も併せて公開されています。このオープンな配布は、大規模なプロプライエタリ・データセットへのアクセスがない研究者の障壁を下げることを意図しています。
非商用のライセンシングを維持することで、QVACは、直接的な商業的悪用を抑えつつ、学術およびコミュニティ主導の研究を支えることを目指しています。
分散型AI開発を支える
このリリースは、Tether Dataが掲げる分散型AI開発を後押しするより広い戦略にも適合しています。同社は、高品質なトレーニングデータは、集約されたクラウド基盤へのアクセスを持つ組織に限定されるべきではないと述べています。
大規模で構造化されたデータセットを公開することで、QVACはAIモデルのローカルトレーニング、実験、展開を可能にしようとしています。このアプローチは、計算資源(compute resources)が限られる可能性がある研究環境でも、知的な貢献が依然として重要であり得ることを支援することを意図しています。
分散化への重点は、少数の支配的なAIプラットフォームへの依存を減らし、より分散された研究エコシステムを育むことへの関心が高まっていることを反映しています。
AI研究におけるTetherの役割
QVACはTether DataのAI研究部門として機能しています。Tetherはデジタルアセットやステーブルコインの役割で広く知られていますが、同社は近年、データとAI研究へ活動を拡大しています。
QVACを通じて、Tether Dataはオープンな研究を支えるインフラとリソースの構築に注力してきました。Genesisデータセットは、その取り組みの中で最も目に見える成果の一つであり、オープンなAI開発や教育重視のトレーニングデータをめぐる議論の中で同社の立ち位置を示しています。
この取り組みはまた、フィンテック企業と高度なAI研究の重なりが拡大していることも反映しています。金融テクノロジー企業がデータサイエンスや機械学習能力への投資をますます進めているからです。
リリースに関する経営者の見解
会社の経営陣はGenesis IIのリリースを、量だけを優先するトレーニング手法からの転換として位置付けています。Tetherの経営陣チームからの発言によれば、焦点は、単に流暢な応答を生成することではなく、AIシステムに「なぜその答えが正しいのか」を推論し説明できるよう教えることにあります。
Tetherの最高経営責任者(CEO)であるPaolo Ardoinoは、信頼できるAIは、答えが正しい理由の理解に根ざすべきだと強調しています。また、データセットをオープンに利用可能にすることは、より強く、より説明可能なAIが社会全体に利益をもたらすという考えを反映していると述べています。
これらの見解は、主に構造化されていないテキストで学習したモデルが持つ限界について、研究者が提起している懸念とも呼応しています。
教育の範囲と領域のカバー
統合されたGenesis IおよびIIデータセットは19の領域をカバーし、内容は中等教育および高等教育のレベルを対象に設計されています。基礎的な数学や物理から、計量経済学や機械学習といった応用分野まで幅広く扱います。
各領域には、構造化された問題、説明、そして推論の道筋が含まれており、形式知的な教育の場において概念が教えられ、評価される方法を模倣することを意図しています。この設計は、論理的一貫性と概念的な深さを必要とする事前学習タスクを支援することを目的としています。
改善された手法でコンテンツを再生成し、拡張することで、QVACは合成データセットにおける教育コンテンツの表現方法を洗練させることを目指しています。
評価とモデルのパフォーマンス
QVACが言及した社内および独立評価によれば、Genesis IIデータで学習したモデルは、推論比重の高いタスクで性能が向上しています。これには、構造化された問題への回答、結論の説明、曖昧または矛盾する応答の回避が含まれます。
評価結果は、Failure AnalysisとOption-Level Reasoningの組み合わせにより、より一貫した出力が得られることを示唆しています。同社はデータセットを単独の解決策として位置付けているわけではありませんが、さらなる学習(training)やファインチューニングのための強固な基盤として提示しています。
データセットがコミュニティでより広く使われるにつれ、研究者には追加の評価を行うことが期待されています。
オープンAI研究への示唆
このような大規模でオープンなデータセットのリリースは、学術機関や独立系研究者がモデル学習にどう取り組むかに影響を与える可能性があります。同規模の構造化された教育データへのアクセスは、これまで伝統的に、資金の潤沢な組織に限られてきました。
代替手段を提供することで、QVAC Genesis IIは、小規模モデルでの実験、ローカライズされたトレーニングの取り組み、説明可能なAIの手法に関する研究を支援し得ます。
このデータセットはまた、単なる規模の大きさよりも推論品質を優先する将来の合成データプロジェクトにおけるベンチマークとして機能する可能性もあります。
より広いAIエコシステムの中での位置づけ
QVAC Genesis IIは、急速な発展とリソースの集中が進む特徴を持つAIエコシステムに参入します。最も能力の高い多くのモデルは、監査や再現のために利用できないプロプライエタリ・データセットで学習されています。
Genesis IIのようなオープンデータセットは、その対極として透明性と共有された進歩を可能にします。また、オープンなリソースが商業的なAI開発とどのように共存し得るのかという問いも投げかけます。
フィンテックとデジタルアセットに根ざした企業の関与は、AI研究が、従来のテクノロジー企業だけでなく、幅広い業界から関心を集めていることを示しています。
利用可能性と次のステップ
データセットの完全な技術ドキュメント(“QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”)は、QVACの研究ブログで公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて利用可能です。
QVACは、今後のリリースで自社の手法を継続的に改良し、教育カバレッジを拡張していく予定だと示しています。研究コミュニティからのフィードバックは、後続の反復版の形成において役割を果たすことが期待されています。
オープンな基盤への継続的な後押し
Genesis IIによって、QVACは、オープンで構造化されたトレーニングデータが信頼できるAIシステムを構築する上で不可欠だという立場を強化しています。このリリースは、知性は統計的な関連付けだけでなく、推論と説明に根ざすべきだという見方を反映しています。
AIシステムが教育、科学、金融サービス(フィンテックの用途を含む)へとより一体化していくにつれ、それらのトレーニングデータの品質は引き続き中核的な懸念であり続けるでしょう。
現時点では、拡張されたGenesisデータセットはオープンAI研究における注目すべき貢献として位置付けられています。プロプライエタリな環境の外で見られることが稀なレベルで、規模、構造、アクセスしやすさを提供しているからです。