DGrid AIは、AIの出力を評価し、分散型ネットワーク全体での報酬分配を改善するために設計された新しいProof of Qualityフレームワークを導入します。
概要
分散型AIネットワークには、研究者たちが長年静かに取り組んできた支払い問題があり、最近のDGrid AIの論文はその問題を直接取り上げています。ノード報酬を支える品質スコアリングシステムは、主に正解を持って比較することに依存してきました。しかし、実運用ではその答えはほとんど存在しません。
この論文は、DGridのProof of Quality(PoQ)に関する継続的研究シリーズの第四弾であり、訓練済みの代替手段を提案し、その背後にある数値を公開しています。PoQは、小さな評価モデルを用いて各出力の品質をスコアリングし、そのスコアが報酬を決定します。安価でスケールも容易です。
DGridはこれを一つ一つ積み上げて構築しました:遅延を考慮した支払い計算を組み込んだコスト意識型のバージョン、スコアラーが嘘をついたり怠けたりしたときに耐性を持つ敵対的堅牢性層、「品質」を検査可能な部分に分割するフレームワーク。堅実なエンジニアリングです。そして、各層は同じ壁に何度もぶつかってきました。
分散推論ネットワークの基本構造は、測定の課題を生み出します。独立したノードが言語モデルを実行し、ユーザークエリに応答します。これらの応答はスコアリングされる必要があります。スコアは報酬を決定するからです。すべての計算を暗号学的に検証することは理論的には完璧ですが、スケール時には費用がかかりすぎるため、実用的な道は、小さなモデルを用いた自動品質評価にあります。
DGridの以前の研究は、そのアプローチを段階的に拡張し、遅延調整された支払い、操作的なスコアラーに対する防御、そして「品質」が何を意味するかのより詳細な分解を追加してきました。しかし、完全に解決できなかったのは評価信号そのものでした。
チームが持っていた最も強い信号は意味的類似性でした:モデルの出力と既知の正解を比較し、それらの埋め込み空間内の距離を測ることです。これは、リファレンス回答が存在するベンチマーク環境では有効です。しかし、ユーザーがオープンエンドの質問をし、データベースに真実の答えが待っていないライブネットワークでは機能しません。
市販の代替手段はより悪い結果を示しました。NLIクロスエンコーダーは、論理的含意を評価するために設計されたモデルクラスで、リファレンス回答なしで回答の品質を評価したとき、ピアソン相関係数は−0.363を返しました。負の相関は、モデルが良い回答よりも悪い回答を好む傾向があることを意味します。これは実用的な評価ツールではありません。
既存モデルを適応させる代わりに、研究者たちはリファレンスフリーの品質スコアリングに特化した3つの判定者を訓練しました。各モデルは質問と応答を入力として受け取り、正解を示さずに0から10のスコアを出力します。
これら3つのモデルは、主にサイズと速度で異なります:
訓練は二段階のプロセスに従いました。まず、GPT-4の評価済み応答の公開データセットであるUltraFeedbackを用いて事前訓練を行い、その後、ネットワークの独自のタスク分布に合わせて微調整しました。目的は、判定者に品質の広範な基準理解を与え、その後、特定のスコアリングコンテキストに焦点を絞ることでした。
300例のホールドアウトテストセットで、DeBERTa判定者は地上真実の代理値に対してピアソン相関0.747を達成しました—リファレンス回答なしでです。以前のフレームワークのリファレンスベース評価者は、正解にアクセスできたにもかかわらず、最大0.647でした。
この差は単純な説明がつきます。古い評価者はコサイン距離を用いた類似性指標で、リファレンス埋め込みとの距離を測っていました。新しい判定者は、スコアリングタスク自体にエンドツーエンドで最適化されています。この性能差は、その違いを反映しており、アーキテクチャの革新よりも重要です。
著者が付け加える一つの注意点は、ここで使われている地上真実も代理値であり、トークンレベルの単語重複に過ぎないということです。判定者はこの指標と良く相関しますが、単語の重複が人間が考える品質の応答を確実に反映しているかどうかは、未解決の問題です。
判定者に付随する2つの展開指向の特徴があります。カスケード型パイプラインは、軽量モデルを最初に通し、スコアが曖昧な場合のみ重いモデルにエスカレーションし、評価コストを最大72.7%削減します(最も積極的な閾値設定時)。ただし、その場合の相関は約0.51に低下します。オンラインキャリブレーション機構は、手動調整なしで動作し、意味的品質を最も重要な信号として一貫して識別し、重みを調整します。時間とともに、その重みは開始時の4.7倍に増加します。
判定者はタスクタイプによって性能が不均一です。質問応答では相関が0.830に達しますが、要約では0.199に低下します。論文はこれを、判定者自体の失敗ではなく、訓練時に用いた評価指標に起因するとしています。生の単語重複は、要約品質の良い指標ではないため、訓練されたモデルは弱い信号を追いかける傾向を学習します。著者はこれを、未解決の主要な問題と位置付けています。
この枠組みは、論文が全体の結果を提示する方法とも一致しています—方法論的に、失敗例も改善点と同じくらい明確に述べられています。4つ目の論文となるこの研究は、製品発表というよりも、実際に展開しようとするギャップを段階的に埋めているチームの努力の記録のように読めます。
開示:このコンテンツは第三者によって提供されています。crypto.newsもこの記事の著者も、このページで言及されている製品を推奨しません。ユーザーは、企業に関する行動を起こす前に自己調査を行う必要があります。
965.74K 人気度
1.89M 人気度
59.83K 人気度
835.14K 人気度
1.82M 人気度
DGrid AIの最新の研究は、分散型AIスコアリングの核心的な欠陥に取り組んでいます
DGrid AIは、AIの出力を評価し、分散型ネットワーク全体での報酬分配を改善するために設計された新しいProof of Qualityフレームワークを導入します。
概要
分散型AIネットワークには、研究者たちが長年静かに取り組んできた支払い問題があり、最近のDGrid AIの論文はその問題を直接取り上げています。ノード報酬を支える品質スコアリングシステムは、主に正解を持って比較することに依存してきました。しかし、実運用ではその答えはほとんど存在しません。
この論文は、DGridのProof of Quality(PoQ)に関する継続的研究シリーズの第四弾であり、訓練済みの代替手段を提案し、その背後にある数値を公開しています。PoQは、小さな評価モデルを用いて各出力の品質をスコアリングし、そのスコアが報酬を決定します。安価でスケールも容易です。
DGridはこれを一つ一つ積み上げて構築しました:遅延を考慮した支払い計算を組み込んだコスト意識型のバージョン、スコアラーが嘘をついたり怠けたりしたときに耐性を持つ敵対的堅牢性層、「品質」を検査可能な部分に分割するフレームワーク。堅実なエンジニアリングです。そして、各層は同じ壁に何度もぶつかってきました。
スコアリング問題の発展経緯
分散推論ネットワークの基本構造は、測定の課題を生み出します。独立したノードが言語モデルを実行し、ユーザークエリに応答します。これらの応答はスコアリングされる必要があります。スコアは報酬を決定するからです。すべての計算を暗号学的に検証することは理論的には完璧ですが、スケール時には費用がかかりすぎるため、実用的な道は、小さなモデルを用いた自動品質評価にあります。
DGridの以前の研究は、そのアプローチを段階的に拡張し、遅延調整された支払い、操作的なスコアラーに対する防御、そして「品質」が何を意味するかのより詳細な分解を追加してきました。しかし、完全に解決できなかったのは評価信号そのものでした。
チームが持っていた最も強い信号は意味的類似性でした:モデルの出力と既知の正解を比較し、それらの埋め込み空間内の距離を測ることです。これは、リファレンス回答が存在するベンチマーク環境では有効です。しかし、ユーザーがオープンエンドの質問をし、データベースに真実の答えが待っていないライブネットワークでは機能しません。
市販の代替手段はより悪い結果を示しました。NLIクロスエンコーダーは、論理的含意を評価するために設計されたモデルクラスで、リファレンス回答なしで回答の品質を評価したとき、ピアソン相関係数は−0.363を返しました。負の相関は、モデルが良い回答よりも悪い回答を好む傾向があることを意味します。これは実用的な評価ツールではありません。
論文の提案内容
既存モデルを適応させる代わりに、研究者たちはリファレンスフリーの品質スコアリングに特化した3つの判定者を訓練しました。各モデルは質問と応答を入力として受け取り、正解を示さずに0から10のスコアを出力します。
これら3つのモデルは、主にサイズと速度で異なります:
訓練は二段階のプロセスに従いました。まず、GPT-4の評価済み応答の公開データセットであるUltraFeedbackを用いて事前訓練を行い、その後、ネットワークの独自のタスク分布に合わせて微調整しました。目的は、判定者に品質の広範な基準理解を与え、その後、特定のスコアリングコンテキストに焦点を絞ることでした。
コアの結果
300例のホールドアウトテストセットで、DeBERTa判定者は地上真実の代理値に対してピアソン相関0.747を達成しました—リファレンス回答なしでです。以前のフレームワークのリファレンスベース評価者は、正解にアクセスできたにもかかわらず、最大0.647でした。
この差は単純な説明がつきます。古い評価者はコサイン距離を用いた類似性指標で、リファレンス埋め込みとの距離を測っていました。新しい判定者は、スコアリングタスク自体にエンドツーエンドで最適化されています。この性能差は、その違いを反映しており、アーキテクチャの革新よりも重要です。
著者が付け加える一つの注意点は、ここで使われている地上真実も代理値であり、トークンレベルの単語重複に過ぎないということです。判定者はこの指標と良く相関しますが、単語の重複が人間が考える品質の応答を確実に反映しているかどうかは、未解決の問題です。
判定者に付随する2つの展開指向の特徴があります。カスケード型パイプラインは、軽量モデルを最初に通し、スコアが曖昧な場合のみ重いモデルにエスカレーションし、評価コストを最大72.7%削減します(最も積極的な閾値設定時)。ただし、その場合の相関は約0.51に低下します。オンラインキャリブレーション機構は、手動調整なしで動作し、意味的品質を最も重要な信号として一貫して識別し、重みを調整します。時間とともに、その重みは開始時の4.7倍に増加します。
システムが依然として苦戦している点
判定者はタスクタイプによって性能が不均一です。質問応答では相関が0.830に達しますが、要約では0.199に低下します。論文はこれを、判定者自体の失敗ではなく、訓練時に用いた評価指標に起因するとしています。生の単語重複は、要約品質の良い指標ではないため、訓練されたモデルは弱い信号を追いかける傾向を学習します。著者はこれを、未解決の主要な問題と位置付けています。
この枠組みは、論文が全体の結果を提示する方法とも一致しています—方法論的に、失敗例も改善点と同じくらい明確に述べられています。4つ目の論文となるこの研究は、製品発表というよりも、実際に展開しようとするギャップを段階的に埋めているチームの努力の記録のように読めます。
開示:このコンテンツは第三者によって提供されています。crypto.newsもこの記事の著者も、このページで言及されている製品を推奨しません。ユーザーは、企業に関する行動を起こす前に自己調査を行う必要があります。