* * ***フィンテックに関する主要なニュースとイベントを発見しよう!****FinTech Weeklyのニュースレターに登録しよう****JP Morgan、Coinbase、Blackrock、Klarnaなどの経営者に読まれています*** * ***オープンAIトレーニングデータの大規模な拡張**----------------------------------------------テザー・データは、人工知能のための合成教育データセットの新しいバージョンをリリースし、世界中の研究者が利用できるオープントレーニング資料の量と範囲を大幅に増加させました。同社のAI研究部門であるQVACは、1070億トークンを以前のデータセットに追加し、合計サイズを1480億トークンにした新しいリリース「QVAC Genesis II」を発表しました。拡張されたデータセットは、AIの事前トレーニングのために特別に設計された公に利用可能な合成教育リソースとしては最大のものとなりました。これは19の学問領域を網羅しており、モデルが表面的なパターン認識ではなく、推論、説明、および意思決定の学習を改善することを目的としています。この発表は、現在多くの高度なトレーニングデータセットが独自のシステム内にロックされている中、より透明でアクセス可能なAI開発への一歩として位置づけられています。**最初のジェネシスリリースを基にして**-----------------------------------------QVAC Genesis IIは、コアとなる科学、技術、工学、数学の科目をカバーする検証済みの教育中心の合成データセットを作成することに焦点を当てたGenesis Iで最初に紹介された作業に基づいています。その以前のリリースは、推論の精度を向上させることを目的とした構造化されたトレーニング質問を生成するためのフレームワークを確立しました。新しいリリースは、化学、コンピュータサイエンス、統計、機械学習、天文学、地理、計量経済学、電気工学など10の追加分野にわたってカバレッジを拡大します。また、大学レベルの物理学コンテンツを再評価し、概念の明確さを改善するために更新された方法論を使用して再生成します。これら2つのリリースは、QVACが公に利用可能な最も広範な合成教育データセットとして説明するものを形成しています。このデータセットは、大規模な言語モデルや構造化された学術資料を必要とする他のAIシステムの事前トレーニングに使用されることを意図しています。**トレーニングデータ生成方法の変化**---------------------------------------------Genesis IIの中心には、「オプションレベル推論」と呼ばれる新しいデータ生成方法があります。このアプローチは、既存の合成データ技術の多くとは異なり、不正解の回答だけでなく、正しい回答にも焦点を当てています。正しい応答をプロセスの終わりとして扱うのではなく、この方法は選択肢の全てを分析します。正しい選択肢は、なぜそれが正しいのかを強調するために分解され、不正確な選択肢は一般的な誤解に対処するために検討されます。この構造により、モデルは単に質問と結果を関連付けるのではなく、因果推論と意思決定論理を学ぶことができます。このアプローチは、モデルのエラーから価値を抽出することに焦点を当てたGenesis Iで紹介された失敗分析手法を補完します。これら2つの方法は、生成された各質問が教育的価値を提供するように設計されたパイプラインを形成します。QVACが引用した独立した評価によれば、Genesis IIデータでトレーニングされたモデルは、以前の合成データセットでトレーニングされたモデルよりも高い推論精度を示し、明確な回答を生成します。**流暢さよりも理解に重点を置く**------------------------------------------現在のAIトレーニングエコシステムの多くは、言語の流暢さを改善するために、公共のソースからスクレイピングされた非常に大量のテキストを集めることに依存しています。QVACの示された目標は、強調点が異なります。Genesisデータセットは、モデルが問題を推論し、結論を明確に説明する方法を教えるように構造化されています。企業のリーダーシップは、AIシステムが単に流暢な応答を生成するのではなく、基礎的な概念の理解を示すことを目指していると示しています。データセットの設計は、明確さ、因果関係、論理を優先し、モデル出力のあいまいさを減少させることを目指しています。このアプローチは、AIシステムが教育、科学、意思決定支援の文脈で使用されるにつれて、信頼性と説明可能性についての広範な議論と一致しています。**研究者と開発者のためのオープンアクセス**----------------------------------------------元のGenesisデータセットと同様に、QVAC Genesis IIはオープンにリリースされています。このデータセットは、研究者、学術機関、および独立開発者が商業環境の外でデータを使用し、研究できるように、クリエイティブ・コモンズ 表示–非営利 4.0 ライセンスの下で利用可能です。データセットと関連モデルはHugging Faceにホストされており、生成方法論と評価結果を詳述した技術論文も添付されています。このオープンな配布は、大規模な独自データセットにアクセスできない研究者に対する障壁を下げることを意図しています。非営利のライセンスを維持することで、QVACは学術的かつコミュニティ主導の研究を支援し、直接的な商業的搾取を制限することを目指しています。**分散型AI開発の支援**-------------------------------------------このリリースは、テザー・データによる分散型AI開発を促進するという広範な戦略にも適合しています。同社は、高品質なトレーニングデータは中央集権的なクラウドインフラにアクセスできる組織に制限されるべきではないと述べています。大規模で構造化されたデータセットを公に利用可能にすることで、QVACはAIモデルのローカルトレーニング、実験、および展開を可能にしようとしています。このアプローチは、計算リソースが限られているが知的貢献が重要な研究環境を支援することを意図しています。分散化への強調は、小規模な支配的AIプラットフォームへの依存を減らし、より分散した研究エコシステムを促進することへの関心の高まりを反映しています。**テザーのAI研究における役割**--------------------------------QVACはテザー・データのAI研究部門として機能しています。テザーはデジタル資産やステーブルコインで広く知られていますが、近年データとAI研究への活動を拡大してきました。QVACを通じて、テザー・データはオープンリサーチを支援するインフラとリソースを構築することに焦点を当てています。Genesisデータセットは、その努力の最も目に見える成果の1つを代表し、オープンAI開発と教育中心のトレーニングデータに関する議論の中で同社を位置づけています。この作業はまた、フィンテック企業と高度なAI研究の間の重なりが増していることを反映しており、金融技術企業がデータサイエンスや機械学習能力にますます投資していることを示しています。**リリースに関するリーダーシップの視点**-----------------------------------------企業のリーダーシップは、Genesis IIのリリースを量だけを優先するトレーニングアプローチからの移行と位置づけています。テザーの経営陣の声明によれば、焦点はAIシステムに推論と説明を教えることにあり、単に流暢な応答を生成することではありません。テザーの最高経営責任者であるパオロ・アルドイーノは、信頼できるAIはなぜ回答が正しいのかを理解することに基づくべきであると強調しています。データセットを公に利用可能にすることは、より強力で説明可能なAIが社会全体に利益をもたらすという信念を反映していると彼は示しています。これらの見解は、主に非構造化テキストに基づいてトレーニングされたモデルの限界について研究者が提起した懸念を反映しています。**教育の範囲と領域のカバレッジ**-----------------------------------------統合されたGenesis IおよびIIデータセットは、19の領域をカバーしており、内容は中等教育および高等教育レベルで設計されています。科目は基礎的な数学や物理学から、計量経済学や機械学習などの応用分野にわたります。各領域には、正式な教育環境で概念がどのように教えられ、評価されるかを反映する構造化された質問、説明、および推論経路が含まれています。この設計は、論理的一貫性と概念的深さを必要とする事前トレーニングタスクを支援することを目的としています。改善された方法を使用してコンテンツを再生成および拡張することにより、QVACは合成データセットにおける教育資料の表現を洗練させることを目指しています。**評価とモデルのパフォーマンス**------------------------------------QVACが言及した内部および独立評価によれば、Genesis IIデータでトレーニングされたモデルは、推論が重視されるタスクで改善されたパフォーマンスを示します。これには、構造化された質問に回答したり、結論を説明したり、あいまいまたは矛盾する応答を避けたりすることが含まれます。評価結果は、失敗分析とオプションレベル推論の組み合わせがより一貫した出力をもたらすことを示唆しています。同社はこのデータセットを単独の解決策として位置づけてはいませんが、さらなるトレーニングと微調整のための強力な基盤として提示しています。研究者は、データセットがコミュニティでより広く使用されるにつれて追加の評価を行うことが期待されています。**オープンAI研究への影響**-------------------------------------このような大規模でオープンなデータセットのリリースは、学術研究者や独立研究者がモデルのトレーニングにアプローチする方法に影響を与える可能性があります。この規模で構造化された教育データへのアクセスは、資金力のある組織に限られてきました。代替手段を提供することにより、QVAC Genesis IIは、より小規模なモデル、ローカルトレーニングの試み、説明可能なAI手法の研究を支援することができます。このデータセットは、推論の質を優先し、単なるサイズを超えた将来の合成データプロジェクトのベンチマークとしても機能するかもしれません。**広範なAIエコシステムにおける位置**--------------------------------------------QVAC Genesis IIは、急速な発展と資源の集中が特徴のAIエコシステムに登場します。最も能力のあるモデルの多くは、検討や再現のためにアクセスできない独自のデータセットでトレーニングされています。Genesis IIのようなオープンデータセットは、透明性と共同の進展を可能にする反論を提供します。また、オープンリソースが商業AI開発とどのように共存できるかについての疑問を提起します。フィンテックとデジタル資産に根ざした企業の関与は、AI研究が伝統的な技術企業を超えたさまざまな業界からの関心を引きつけていることを強調しています。**利用可能性と今後のステップ**-------------------------------データセットの完全な技術文書である「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training」は、QVACの研究ブログに公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて可能です。QVACは、今後のリリースで方法を洗練し、教育的カバレッジを拡張し続ける計画があることを示しています。研究コミュニティからのフィードバックは、次の反復に影響を与えることが期待されています。**オープンな基盤への継続的な推進**------------------------------------------Genesis IIにより、QVACはオープンで構造化されたトレーニングデータが信頼できるAIシステムの構築に不可欠であるという立場を強化します。このリリースは、知性は統計的関連性だけでなく、推論と説明に基づくべきであるという見解を反映しています。AIシステムが教育、科学、金融サービス、フィンテックアプリケーションにますます統合されるにつれて、トレーニングデータの質は中心的な関心事であり続けるでしょう。現時点で、拡張されたGenesisデータセットは、オープンAI研究への注目に値する貢献として、規模、構造、およびアクセス可能性を提供しています。これは、商業環境の外ではほとんど見られないレベルです。
Tetherは、QVAC Genesis IIデータセットのリリースにより、Open AIトレーニングデータを拡大
フィンテックに関する主要なニュースとイベントを発見しよう!
FinTech Weeklyのニュースレターに登録しよう
JP Morgan、Coinbase、Blackrock、Klarnaなどの経営者に読まれています
オープンAIトレーニングデータの大規模な拡張
テザー・データは、人工知能のための合成教育データセットの新しいバージョンをリリースし、世界中の研究者が利用できるオープントレーニング資料の量と範囲を大幅に増加させました。同社のAI研究部門であるQVACは、1070億トークンを以前のデータセットに追加し、合計サイズを1480億トークンにした新しいリリース「QVAC Genesis II」を発表しました。
拡張されたデータセットは、AIの事前トレーニングのために特別に設計された公に利用可能な合成教育リソースとしては最大のものとなりました。これは19の学問領域を網羅しており、モデルが表面的なパターン認識ではなく、推論、説明、および意思決定の学習を改善することを目的としています。
この発表は、現在多くの高度なトレーニングデータセットが独自のシステム内にロックされている中、より透明でアクセス可能なAI開発への一歩として位置づけられています。
最初のジェネシスリリースを基にして
QVAC Genesis IIは、コアとなる科学、技術、工学、数学の科目をカバーする検証済みの教育中心の合成データセットを作成することに焦点を当てたGenesis Iで最初に紹介された作業に基づいています。その以前のリリースは、推論の精度を向上させることを目的とした構造化されたトレーニング質問を生成するためのフレームワークを確立しました。
新しいリリースは、化学、コンピュータサイエンス、統計、機械学習、天文学、地理、計量経済学、電気工学など10の追加分野にわたってカバレッジを拡大します。また、大学レベルの物理学コンテンツを再評価し、概念の明確さを改善するために更新された方法論を使用して再生成します。
これら2つのリリースは、QVACが公に利用可能な最も広範な合成教育データセットとして説明するものを形成しています。このデータセットは、大規模な言語モデルや構造化された学術資料を必要とする他のAIシステムの事前トレーニングに使用されることを意図しています。
トレーニングデータ生成方法の変化
Genesis IIの中心には、「オプションレベル推論」と呼ばれる新しいデータ生成方法があります。このアプローチは、既存の合成データ技術の多くとは異なり、不正解の回答だけでなく、正しい回答にも焦点を当てています。
正しい応答をプロセスの終わりとして扱うのではなく、この方法は選択肢の全てを分析します。正しい選択肢は、なぜそれが正しいのかを強調するために分解され、不正確な選択肢は一般的な誤解に対処するために検討されます。この構造により、モデルは単に質問と結果を関連付けるのではなく、因果推論と意思決定論理を学ぶことができます。
このアプローチは、モデルのエラーから価値を抽出することに焦点を当てたGenesis Iで紹介された失敗分析手法を補完します。これら2つの方法は、生成された各質問が教育的価値を提供するように設計されたパイプラインを形成します。
QVACが引用した独立した評価によれば、Genesis IIデータでトレーニングされたモデルは、以前の合成データセットでトレーニングされたモデルよりも高い推論精度を示し、明確な回答を生成します。
流暢さよりも理解に重点を置く
現在のAIトレーニングエコシステムの多くは、言語の流暢さを改善するために、公共のソースからスクレイピングされた非常に大量のテキストを集めることに依存しています。QVACの示された目標は、強調点が異なります。Genesisデータセットは、モデルが問題を推論し、結論を明確に説明する方法を教えるように構造化されています。
企業のリーダーシップは、AIシステムが単に流暢な応答を生成するのではなく、基礎的な概念の理解を示すことを目指していると示しています。データセットの設計は、明確さ、因果関係、論理を優先し、モデル出力のあいまいさを減少させることを目指しています。
このアプローチは、AIシステムが教育、科学、意思決定支援の文脈で使用されるにつれて、信頼性と説明可能性についての広範な議論と一致しています。
研究者と開発者のためのオープンアクセス
元のGenesisデータセットと同様に、QVAC Genesis IIはオープンにリリースされています。このデータセットは、研究者、学術機関、および独立開発者が商業環境の外でデータを使用し、研究できるように、クリエイティブ・コモンズ 表示–非営利 4.0 ライセンスの下で利用可能です。
データセットと関連モデルはHugging Faceにホストされており、生成方法論と評価結果を詳述した技術論文も添付されています。このオープンな配布は、大規模な独自データセットにアクセスできない研究者に対する障壁を下げることを意図しています。
非営利のライセンスを維持することで、QVACは学術的かつコミュニティ主導の研究を支援し、直接的な商業的搾取を制限することを目指しています。
分散型AI開発の支援
このリリースは、テザー・データによる分散型AI開発を促進するという広範な戦略にも適合しています。同社は、高品質なトレーニングデータは中央集権的なクラウドインフラにアクセスできる組織に制限されるべきではないと述べています。
大規模で構造化されたデータセットを公に利用可能にすることで、QVACはAIモデルのローカルトレーニング、実験、および展開を可能にしようとしています。このアプローチは、計算リソースが限られているが知的貢献が重要な研究環境を支援することを意図しています。
分散化への強調は、小規模な支配的AIプラットフォームへの依存を減らし、より分散した研究エコシステムを促進することへの関心の高まりを反映しています。
テザーのAI研究における役割
QVACはテザー・データのAI研究部門として機能しています。テザーはデジタル資産やステーブルコインで広く知られていますが、近年データとAI研究への活動を拡大してきました。
QVACを通じて、テザー・データはオープンリサーチを支援するインフラとリソースを構築することに焦点を当てています。Genesisデータセットは、その努力の最も目に見える成果の1つを代表し、オープンAI開発と教育中心のトレーニングデータに関する議論の中で同社を位置づけています。
この作業はまた、フィンテック企業と高度なAI研究の間の重なりが増していることを反映しており、金融技術企業がデータサイエンスや機械学習能力にますます投資していることを示しています。
リリースに関するリーダーシップの視点
企業のリーダーシップは、Genesis IIのリリースを量だけを優先するトレーニングアプローチからの移行と位置づけています。テザーの経営陣の声明によれば、焦点はAIシステムに推論と説明を教えることにあり、単に流暢な応答を生成することではありません。
テザーの最高経営責任者であるパオロ・アルドイーノは、信頼できるAIはなぜ回答が正しいのかを理解することに基づくべきであると強調しています。データセットを公に利用可能にすることは、より強力で説明可能なAIが社会全体に利益をもたらすという信念を反映していると彼は示しています。
これらの見解は、主に非構造化テキストに基づいてトレーニングされたモデルの限界について研究者が提起した懸念を反映しています。
教育の範囲と領域のカバレッジ
統合されたGenesis IおよびIIデータセットは、19の領域をカバーしており、内容は中等教育および高等教育レベルで設計されています。科目は基礎的な数学や物理学から、計量経済学や機械学習などの応用分野にわたります。
各領域には、正式な教育環境で概念がどのように教えられ、評価されるかを反映する構造化された質問、説明、および推論経路が含まれています。この設計は、論理的一貫性と概念的深さを必要とする事前トレーニングタスクを支援することを目的としています。
改善された方法を使用してコンテンツを再生成および拡張することにより、QVACは合成データセットにおける教育資料の表現を洗練させることを目指しています。
評価とモデルのパフォーマンス
QVACが言及した内部および独立評価によれば、Genesis IIデータでトレーニングされたモデルは、推論が重視されるタスクで改善されたパフォーマンスを示します。これには、構造化された質問に回答したり、結論を説明したり、あいまいまたは矛盾する応答を避けたりすることが含まれます。
評価結果は、失敗分析とオプションレベル推論の組み合わせがより一貫した出力をもたらすことを示唆しています。同社はこのデータセットを単独の解決策として位置づけてはいませんが、さらなるトレーニングと微調整のための強力な基盤として提示しています。
研究者は、データセットがコミュニティでより広く使用されるにつれて追加の評価を行うことが期待されています。
オープンAI研究への影響
このような大規模でオープンなデータセットのリリースは、学術研究者や独立研究者がモデルのトレーニングにアプローチする方法に影響を与える可能性があります。この規模で構造化された教育データへのアクセスは、資金力のある組織に限られてきました。
代替手段を提供することにより、QVAC Genesis IIは、より小規模なモデル、ローカルトレーニングの試み、説明可能なAI手法の研究を支援することができます。
このデータセットは、推論の質を優先し、単なるサイズを超えた将来の合成データプロジェクトのベンチマークとしても機能するかもしれません。
広範なAIエコシステムにおける位置
QVAC Genesis IIは、急速な発展と資源の集中が特徴のAIエコシステムに登場します。最も能力のあるモデルの多くは、検討や再現のためにアクセスできない独自のデータセットでトレーニングされています。
Genesis IIのようなオープンデータセットは、透明性と共同の進展を可能にする反論を提供します。また、オープンリソースが商業AI開発とどのように共存できるかについての疑問を提起します。
フィンテックとデジタル資産に根ざした企業の関与は、AI研究が伝統的な技術企業を超えたさまざまな業界からの関心を引きつけていることを強調しています。
利用可能性と今後のステップ
データセットの完全な技術文書である「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training」は、QVACの研究ブログに公開されています。データセットと関連モデルへのアクセスはHugging Faceを通じて可能です。
QVACは、今後のリリースで方法を洗練し、教育的カバレッジを拡張し続ける計画があることを示しています。研究コミュニティからのフィードバックは、次の反復に影響を与えることが期待されています。
オープンな基盤への継続的な推進
Genesis IIにより、QVACはオープンで構造化されたトレーニングデータが信頼できるAIシステムの構築に不可欠であるという立場を強化します。このリリースは、知性は統計的関連性だけでなく、推論と説明に基づくべきであるという見解を反映しています。
AIシステムが教育、科学、金融サービス、フィンテックアプリケーションにますます統合されるにつれて、トレーニングデータの質は中心的な関心事であり続けるでしょう。
現時点で、拡張されたGenesisデータセットは、オープンAI研究への注目に値する貢献として、規模、構造、およびアクセス可能性を提供しています。これは、商業環境の外ではほとんど見られないレベルです。