* * ***トップのフィンテックニュースとイベントを見つけよう!****FinTech Weeklyのニュースレターを購読する****JP Morgan、Coinbase、Blackrock、Klarnaなどの役員が読んでいます*** * ***Open AI Training Dataにおける大規模な拡張**----------------------------------------------Tether Dataは、人工知能向けの合成教育データセットの新しいバージョンをリリースし、世界中の研究者が利用できるオープンなトレーニング素材の量と範囲を大幅に拡大しました。同社のAI研究部門であるQVACは、新リリース(QVAC Genesis II)により、従来のデータセットに対して1070億トークンを追加し、合計規模を1480億トークンにすることを発表しました。拡張されたデータセットは、AIの事前学習(pre-training)を目的として特に設計された、公開されて利用可能な合成教育リソースとして現在最大のものです。19の学術分野にまたがり、表面的なパターン認識ではなく、推論、説明、意思決定をモデルがどのように学ぶかを改善することを意図しています。この発表は、多くの先進的なトレーニングデータセットが専有システムの中に閉じ込められたままである状況のなかで、より透明でアクセスしやすいAI開発へ向けた一歩であることを示しています。**最初のGenesisリリースを土台に**-----------------------------------------QVAC Genesis IIは、Genesis Iで最初に導入された取り組みを土台にしています。Genesis Iでは、コアとなる科学、技術、工学、数学の科目を対象に、検証済みで教育に重点を置いた合成データセットの作成に焦点が当てられていました。先行リリースでは、推論精度の向上を狙って、構造化されたトレーニング質問を生成するための枠組みが確立されました。新リリースでは、化学、コンピューターサイエンス、統計、機械学習、天文学、地理、計量経済学、電気工学を含む10の追加分野へのカバーが拡張されています。また、大学レベルの物理コンテンツも見直し、概念の明確さを高めるために設計された更新された手法で再生成しています。この2つのリリースを合わせると、QVACが「これまでに公開された中で最も広範な合成教育データセット」と説明するものになります。このデータセットは、大規模言語モデルや、構造化された学術素材を必要とするその他のAIシステムの事前学習に利用することを意図しています。**トレーニングデータ生成のあり方の転換**---------------------------------------------Genesis IIの中核には、Option-Level Reasoningと呼ばれる新しいデータ生成手法があります。このアプローチは、多くの既存の合成データ技術とは異なり、不正解だけでなく正解にも焦点を当てています。正しい回答をプロセスの終点として扱うのではなく、この手法は、多肢選択問題(multiple-choice question)のすべての選択肢を分析します。正しい選択肢は、それがなぜ正しいのかを強化するために分解され、不正解の選択肢は、よくある誤解に対処するために検討されます。この構造により、モデルは、問題を結果と単に結び付けるのではなく、因果推論や意思決定ロジックを学習できます。このアプローチは、Genesis Iで導入されたFailure Analysisメソッドとも相補的です。Failure Analysisは、モデルの誤りから価値を引き出すことに焦点を当てていました。合わせて2つの方法は、生成される各質問が教育的価値に貢献するよう設計されたパイプラインを形成します。QVACが引用した独立評価では、Genesis IIデータで学習したモデルが、推論精度が高く、以前の合成データセットで学習したモデルよりも明確な回答を生成することが示されています。**流暢さよりも理解を重視**------------------------------------------現在のAIトレーニング・エコシステムの多くは、言語の流暢性を高めるために、非常に大量のテキスト(しばしば公開ソースからスクレイピングしたもの)を組み立てることに依存しています。QVACの掲げる目標は、重視点が異なります。Genesisデータセットは、モデルが問題を通してどのように推論し、結論を明確に説明するかを学べるよう構造化されています。同社の経営陣は、あり得るテキストの並びを予測するだけの学習システムを超えて、基礎となる概念を理解していることを示すモデルへ進む意図であると示しています。データセットの設計は、明確さ、因果性、ロジックを優先し、モデルの出力における曖昧さを減らすことを目指しています。このアプローチは、信頼性と説明可能性に関するAI研究のより広範な議論とも一致しています。特に、AIシステムが教育、科学、意思決定支援の文脈で用いられるようになるにつれて重要になります。**研究者と開発者のためのオープンアクセス**----------------------------------------------Genesisの元データセットと同様に、QVAC Genesis IIもオープンにリリースされています。このデータセットは、Creative Commons Attribution–NonCommercial 4.0ライセンスのもとで提供されており、研究者、学術機関、独立系開発者が、商用の場面の外でデータを利用し、研究することができます。データセットおよび関連モデルはHugging Faceでホストされており、生成手法と評価結果を詳述する詳細な技術論文も併せて公開されています。このオープンな配布は、大規模な専有データセットにアクセスできない研究者の参入障壁を下げることを意図しています。非商用のライセンスを維持することで、QVACは、学術およびコミュニティ主導の研究を支援しつつ、直接的な商業的な搾取を制限することを目指しています。**分散型AI開発を支える**-------------------------------------------今回のリリースは、分散型AI開発を後押しするためにTether Dataが進めている、より広範な戦略にも合致しています。同社は、高品質なトレーニングデータは、集中型クラウド基盤にアクセスできる組織だけに制限されるべきではないと述べています。大規模で構造化されたデータセットを一般に公開することで、QVACは、AIモデルのローカルトレーニング、実験、デプロイを可能にすることを狙っています。このアプローチは、計算資源が限られる可能性があっても、知的貢献が依然として大きな意味を持ち得る研究環境を支えることを意図しています。分散化への重点は、少数の支配的なAIプラットフォームへの依存を減らし、より分散した研究エコシステムを育成したいという関心が高まっていることを反映しています。**AI研究におけるTetherの役割**--------------------------------QVACはTether DataのAI研究部門として運営されています。Tetherはデジタル資産やステーブルコインの役割で広く知られていますが、同社は近年、データとAI研究へ活動を拡大しています。QVACを通じて、Tether Dataはオープンな研究を支えるインフラとリソースの構築に注力してきました。Genesisデータセットは、その取り組みのなかでも最も目に見える成果の一つであり、オープンなAI開発や教育を重視したトレーニングデータをめぐる議論の中で同社を位置づけています。この取り組みは、フィンテック企業と先進的なAI研究の間に広がる重なりが増えていることも反映しています。金融テクノロジー企業が、データサイエンスや機械学習の能力にますます投資するようになっているためです。**リリースに関するリーダーシップの見解**-----------------------------------------同社の経営陣は、Genesis IIのリリースを、量だけを優先するトレーニング手法からの転換だと位置づけています。Tetherの幹部チームの発言によれば、狙いは、ただ流暢な応答を生成することではなく、AIシステムに対して、単に生成するのではなく、推論し説明できるように教えることにあります。Tetherの最高経営責任者(CEO)であるPaolo Ardoinoは、信頼できるAIは「回答が正しい理由の理解」に基づくべきだと強調しています。また、データセットをオープンに利用可能にすることは、より強力で、より説明可能なAIが社会全体にとって利益になるという考えを反映していると示しています。これらの見解は、主に構造化されていないテキストで学習されたモデルの限界について、研究者が提起している懸念とも呼応しています。**教育の範囲と領域カバレッジ**-----------------------------------------統合されたGenesis IおよびIIデータセットは19のドメインをカバーし、内容は二次教育および高等教育のレベルで扱われることを想定して設計されています。対象は、基礎的な数学や物理から、計量経済学や機械学習といった応用分野まで幅広く含みます。各ドメインには、構造化された質問、説明、推論の道筋が含まれており、概念が形式的な教育環境でどのように教えられ、どのように評価されるかを模倣することを意図しています。この設計は、論理的一貫性と概念的な深さを必要とする事前学習タスクを支えるためのものです。改良された手法を用いてコンテンツを再生成し拡張することで、QVACは、合成データセットにおける教育素材の表現方法を洗練させることを目指しています。**評価とモデルのパフォーマンス**------------------------------------QVACが参照している社内評価および独立評価によれば、Genesis IIデータで学習したモデルは、推論が重視されるタスクでパフォーマンスが向上しています。これには、構造化された質問への回答、結論の説明、曖昧または矛盾する応答の回避が含まれます。評価結果は、Failure AnalysisとOption-Level Reasoningを組み合わせることで、より一貫した出力が得られることを示唆しています。同社はデータセットを単独の解決策として位置づけているわけではありませんが、さらなるトレーニングやファインチューニングのための強固な土台として提示しています。データセットがコミュニティでより広く利用されるようになるにつれ、研究者による追加の評価が行われることが期待されています。**Open AI研究への含意**-------------------------------------このような大規模でオープンなデータセットのリリースは、学術的および独立系の研究者がモデルのトレーニングに取り組む方法に影響を与える可能性があります。これほどの規模で構造化された教育データへのアクセスは、伝統的に、資金の潤沢な組織に限られてきました。代替手段としてQVAC Genesis IIを提供することで、より小型のモデルでの実験、小規模ではなく地域に根ざしたトレーニングの取り組み、説明可能なAIの手法に関する研究を支援できる可能性があります。また、このデータセットは、単に規模の大きさよりも推論の質を重視する、将来の合成データプロジェクトのベンチマークとして役立つかもしれません。**より広いAIエコシステムの中での位置づけ**--------------------------------------------QVAC Genesis IIは、急速な開発とリソースの集中が進むAIエコシステムの中に入っていきます。最も能力の高い多くのモデルは、精査や再現のためにアクセスできない専有データセットで学習されています。Genesis IIのようなオープンデータセットは、対照点を提示し、透明性と共有された進歩を可能にします。また、オープンなリソースが商用のAI開発とどのように共存し得るのかという問いも生み出します。フィンテックやデジタル資産に根ざした企業の関与は、AI研究への関心が従来のテクノロジー企業にとどまらず、多様な業界から集まっていることを示しています。**提供状況と次のステップ**-------------------------------データセットの完全な技術ドキュメント(「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training」)は、QVACリサーチブログで公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて利用できます。QVACは、今後のリリースにおいて自社の手法を継続的に改善し、教育のカバレッジを拡大していく計画であることを示しています。その後の改良版の方向性を形作るうえで、研究コミュニティからのフィードバックが果たす役割が期待されています。**オープンな土台への継続的な後押し**------------------------------------------Genesis IIにより、QVACは、オープンで構造化されたトレーニングデータが、信頼できるAIシステムを構築するために不可欠だという立場を改めて強調しています。このリリースは、知能は単なる統計的な関連付けではなく、推論と説明に根ざすべきだという見方を反映しています。AIシステムが教育、科学、そして金融サービス(フィンテックのアプリケーションを含む)により一層統合されていくにつれて、そのトレーニングデータの品質は引き続き中心的な懸念事項であり続けるでしょう。現時点では、拡張されたGenesisデータセットは、オープンなAI研究における注目すべき貢献として位置づけられています。専有環境の外ではめったに見られない規模、構造、アクセス可能性を備えています。
Tetherは、QVAC Genesis IIデータセットのリリースにより、Open AIトレーニングデータを拡大
トップのフィンテックニュースとイベントを見つけよう!
FinTech Weeklyのニュースレターを購読する
JP Morgan、Coinbase、Blackrock、Klarnaなどの役員が読んでいます
Open AI Training Dataにおける大規模な拡張
Tether Dataは、人工知能向けの合成教育データセットの新しいバージョンをリリースし、世界中の研究者が利用できるオープンなトレーニング素材の量と範囲を大幅に拡大しました。同社のAI研究部門であるQVACは、新リリース(QVAC Genesis II)により、従来のデータセットに対して1070億トークンを追加し、合計規模を1480億トークンにすることを発表しました。
拡張されたデータセットは、AIの事前学習(pre-training)を目的として特に設計された、公開されて利用可能な合成教育リソースとして現在最大のものです。19の学術分野にまたがり、表面的なパターン認識ではなく、推論、説明、意思決定をモデルがどのように学ぶかを改善することを意図しています。
この発表は、多くの先進的なトレーニングデータセットが専有システムの中に閉じ込められたままである状況のなかで、より透明でアクセスしやすいAI開発へ向けた一歩であることを示しています。
最初のGenesisリリースを土台に
QVAC Genesis IIは、Genesis Iで最初に導入された取り組みを土台にしています。Genesis Iでは、コアとなる科学、技術、工学、数学の科目を対象に、検証済みで教育に重点を置いた合成データセットの作成に焦点が当てられていました。先行リリースでは、推論精度の向上を狙って、構造化されたトレーニング質問を生成するための枠組みが確立されました。
新リリースでは、化学、コンピューターサイエンス、統計、機械学習、天文学、地理、計量経済学、電気工学を含む10の追加分野へのカバーが拡張されています。また、大学レベルの物理コンテンツも見直し、概念の明確さを高めるために設計された更新された手法で再生成しています。
この2つのリリースを合わせると、QVACが「これまでに公開された中で最も広範な合成教育データセット」と説明するものになります。このデータセットは、大規模言語モデルや、構造化された学術素材を必要とするその他のAIシステムの事前学習に利用することを意図しています。
トレーニングデータ生成のあり方の転換
Genesis IIの中核には、Option-Level Reasoningと呼ばれる新しいデータ生成手法があります。このアプローチは、多くの既存の合成データ技術とは異なり、不正解だけでなく正解にも焦点を当てています。
正しい回答をプロセスの終点として扱うのではなく、この手法は、多肢選択問題(multiple-choice question)のすべての選択肢を分析します。正しい選択肢は、それがなぜ正しいのかを強化するために分解され、不正解の選択肢は、よくある誤解に対処するために検討されます。この構造により、モデルは、問題を結果と単に結び付けるのではなく、因果推論や意思決定ロジックを学習できます。
このアプローチは、Genesis Iで導入されたFailure Analysisメソッドとも相補的です。Failure Analysisは、モデルの誤りから価値を引き出すことに焦点を当てていました。合わせて2つの方法は、生成される各質問が教育的価値に貢献するよう設計されたパイプラインを形成します。
QVACが引用した独立評価では、Genesis IIデータで学習したモデルが、推論精度が高く、以前の合成データセットで学習したモデルよりも明確な回答を生成することが示されています。
流暢さよりも理解を重視
現在のAIトレーニング・エコシステムの多くは、言語の流暢性を高めるために、非常に大量のテキスト(しばしば公開ソースからスクレイピングしたもの)を組み立てることに依存しています。QVACの掲げる目標は、重視点が異なります。Genesisデータセットは、モデルが問題を通してどのように推論し、結論を明確に説明するかを学べるよう構造化されています。
同社の経営陣は、あり得るテキストの並びを予測するだけの学習システムを超えて、基礎となる概念を理解していることを示すモデルへ進む意図であると示しています。データセットの設計は、明確さ、因果性、ロジックを優先し、モデルの出力における曖昧さを減らすことを目指しています。
このアプローチは、信頼性と説明可能性に関するAI研究のより広範な議論とも一致しています。特に、AIシステムが教育、科学、意思決定支援の文脈で用いられるようになるにつれて重要になります。
研究者と開発者のためのオープンアクセス
Genesisの元データセットと同様に、QVAC Genesis IIもオープンにリリースされています。このデータセットは、Creative Commons Attribution–NonCommercial 4.0ライセンスのもとで提供されており、研究者、学術機関、独立系開発者が、商用の場面の外でデータを利用し、研究することができます。
データセットおよび関連モデルはHugging Faceでホストされており、生成手法と評価結果を詳述する詳細な技術論文も併せて公開されています。このオープンな配布は、大規模な専有データセットにアクセスできない研究者の参入障壁を下げることを意図しています。
非商用のライセンスを維持することで、QVACは、学術およびコミュニティ主導の研究を支援しつつ、直接的な商業的な搾取を制限することを目指しています。
分散型AI開発を支える
今回のリリースは、分散型AI開発を後押しするためにTether Dataが進めている、より広範な戦略にも合致しています。同社は、高品質なトレーニングデータは、集中型クラウド基盤にアクセスできる組織だけに制限されるべきではないと述べています。
大規模で構造化されたデータセットを一般に公開することで、QVACは、AIモデルのローカルトレーニング、実験、デプロイを可能にすることを狙っています。このアプローチは、計算資源が限られる可能性があっても、知的貢献が依然として大きな意味を持ち得る研究環境を支えることを意図しています。
分散化への重点は、少数の支配的なAIプラットフォームへの依存を減らし、より分散した研究エコシステムを育成したいという関心が高まっていることを反映しています。
AI研究におけるTetherの役割
QVACはTether DataのAI研究部門として運営されています。Tetherはデジタル資産やステーブルコインの役割で広く知られていますが、同社は近年、データとAI研究へ活動を拡大しています。
QVACを通じて、Tether Dataはオープンな研究を支えるインフラとリソースの構築に注力してきました。Genesisデータセットは、その取り組みのなかでも最も目に見える成果の一つであり、オープンなAI開発や教育を重視したトレーニングデータをめぐる議論の中で同社を位置づけています。
この取り組みは、フィンテック企業と先進的なAI研究の間に広がる重なりが増えていることも反映しています。金融テクノロジー企業が、データサイエンスや機械学習の能力にますます投資するようになっているためです。
リリースに関するリーダーシップの見解
同社の経営陣は、Genesis IIのリリースを、量だけを優先するトレーニング手法からの転換だと位置づけています。Tetherの幹部チームの発言によれば、狙いは、ただ流暢な応答を生成することではなく、AIシステムに対して、単に生成するのではなく、推論し説明できるように教えることにあります。
Tetherの最高経営責任者(CEO)であるPaolo Ardoinoは、信頼できるAIは「回答が正しい理由の理解」に基づくべきだと強調しています。また、データセットをオープンに利用可能にすることは、より強力で、より説明可能なAIが社会全体にとって利益になるという考えを反映していると示しています。
これらの見解は、主に構造化されていないテキストで学習されたモデルの限界について、研究者が提起している懸念とも呼応しています。
教育の範囲と領域カバレッジ
統合されたGenesis IおよびIIデータセットは19のドメインをカバーし、内容は二次教育および高等教育のレベルで扱われることを想定して設計されています。対象は、基礎的な数学や物理から、計量経済学や機械学習といった応用分野まで幅広く含みます。
各ドメインには、構造化された質問、説明、推論の道筋が含まれており、概念が形式的な教育環境でどのように教えられ、どのように評価されるかを模倣することを意図しています。この設計は、論理的一貫性と概念的な深さを必要とする事前学習タスクを支えるためのものです。
改良された手法を用いてコンテンツを再生成し拡張することで、QVACは、合成データセットにおける教育素材の表現方法を洗練させることを目指しています。
評価とモデルのパフォーマンス
QVACが参照している社内評価および独立評価によれば、Genesis IIデータで学習したモデルは、推論が重視されるタスクでパフォーマンスが向上しています。これには、構造化された質問への回答、結論の説明、曖昧または矛盾する応答の回避が含まれます。
評価結果は、Failure AnalysisとOption-Level Reasoningを組み合わせることで、より一貫した出力が得られることを示唆しています。同社はデータセットを単独の解決策として位置づけているわけではありませんが、さらなるトレーニングやファインチューニングのための強固な土台として提示しています。
データセットがコミュニティでより広く利用されるようになるにつれ、研究者による追加の評価が行われることが期待されています。
Open AI研究への含意
このような大規模でオープンなデータセットのリリースは、学術的および独立系の研究者がモデルのトレーニングに取り組む方法に影響を与える可能性があります。これほどの規模で構造化された教育データへのアクセスは、伝統的に、資金の潤沢な組織に限られてきました。
代替手段としてQVAC Genesis IIを提供することで、より小型のモデルでの実験、小規模ではなく地域に根ざしたトレーニングの取り組み、説明可能なAIの手法に関する研究を支援できる可能性があります。
また、このデータセットは、単に規模の大きさよりも推論の質を重視する、将来の合成データプロジェクトのベンチマークとして役立つかもしれません。
より広いAIエコシステムの中での位置づけ
QVAC Genesis IIは、急速な開発とリソースの集中が進むAIエコシステムの中に入っていきます。最も能力の高い多くのモデルは、精査や再現のためにアクセスできない専有データセットで学習されています。
Genesis IIのようなオープンデータセットは、対照点を提示し、透明性と共有された進歩を可能にします。また、オープンなリソースが商用のAI開発とどのように共存し得るのかという問いも生み出します。
フィンテックやデジタル資産に根ざした企業の関与は、AI研究への関心が従来のテクノロジー企業にとどまらず、多様な業界から集まっていることを示しています。
提供状況と次のステップ
データセットの完全な技術ドキュメント(「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training」)は、QVACリサーチブログで公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて利用できます。
QVACは、今後のリリースにおいて自社の手法を継続的に改善し、教育のカバレッジを拡大していく計画であることを示しています。その後の改良版の方向性を形作るうえで、研究コミュニティからのフィードバックが果たす役割が期待されています。
オープンな土台への継続的な後押し
Genesis IIにより、QVACは、オープンで構造化されたトレーニングデータが、信頼できるAIシステムを構築するために不可欠だという立場を改めて強調しています。このリリースは、知能は単なる統計的な関連付けではなく、推論と説明に根ざすべきだという見方を反映しています。
AIシステムが教育、科学、そして金融サービス(フィンテックのアプリケーションを含む)により一層統合されていくにつれて、そのトレーニングデータの品質は引き続き中心的な懸念事項であり続けるでしょう。
現時点では、拡張されたGenesisデータセットは、オープンなAI研究における注目すべき貢献として位置づけられています。専有環境の外ではめったに見られない規模、構造、アクセス可能性を備えています。