DGridはこれを一つ一つ積み上げて構築しました：遅延を考慮した支払い計算を組み込んだコスト意識型のバージョン、スコアラーが嘘をついたり怠けたりしたときに耐性を持つ敵対的堅牢性層、「品質」を検査可能な部分に分割するフレームワーク。堅実なエンジニアリングです。そして、各層は同じ壁に何度もぶつかってきました。

スコアリング問題の発展経緯

分散推論ネットワークの基本構造は、測定の課題を生み出します。独立したノードが言語モデルを実行し、ユーザークエリに応答します。これらの応答はスコアリングされる必要があります。スコアは報酬を決定するからです。すべての計算を暗号学的に検証することは理論的には完璧ですが、スケール時には費用がかかりすぎるため、実用的な道は、小さなモデルを用いた自動品質評価にあります。

DGridの以前の研究は、そのアプローチを段階的に拡張し、遅延調整された支払い、操作的なスコアラーに対する防御、そして「品質」が何を意味するかのより詳細な分解を追加してきました。しかし、完全に解決できなかったのは評価信号そのものでした。

チームが持っていた最も強い信号は意味的類似性でした：モデルの出力と既知の正解を比較し、それらの埋め込み空間内の距離を測ることです。これは、リファレンス回答が存在するベンチマーク環境では有効です。しかし、ユーザーがオープンエンドの質問をし、データベースに真実の答えが待っていないライブネットワークでは機能しません。

市販の代替手段はより悪い結果を示しました。NLIクロスエンコーダーは、論理的含意を評価するために設計されたモデルクラスで、リファレンス回答なしで回答の品質を評価したとき、ピアソン相関係数は−0.363を返しました。負の相関は、モデルが良い回答よりも悪い回答を好む傾向があることを意味します。これは実用的な評価ツールではありません。

論文の提案内容

既存モデルを適応させる代わりに、研究者たちはリファレンスフリーの品質スコアリングに特化した3つの判定者を訓練しました。各モデルは質問と応答を入力として受け取り、正解を示さずに0から10のスコアを出力します。

これら3つのモデルは、主にサイズと速度で異なります：

**TextCNN（約1000万パラメータ）**は、1ミリ秒程度で呼び出し可能で、高スループットの一次フィルタリングに適しています。
**MiniLM（2200万パラメータ）**は中間で、約13ミリ秒です。
**DeBERTa（1億8400万パラメータ）**は約15ミリ秒かかり、精度向上に最適化されています。

訓練は二段階のプロセスに従いました。まず、GPT-4の評価済み応答の公開データセットであるUltraFeedbackを用いて事前訓練を行い、その後、ネットワークの独自のタスク分布に合わせて微調整しました。目的は、判定者に品質の広範な基準理解を与え、その後、特定のスコアリングコンテキストに焦点を絞ることでした。

コアの結果

300例のホールドアウトテストセットで、DeBERTa判定者は地上真実の代理値に対してピアソン相関0.747を達成しました—リファレンス回答なしでです。以前のフレームワークのリファレンスベース評価者は、正解にアクセスできたにもかかわらず、最大0.647でした。

この差は単純な説明がつきます。古い評価者はコサイン距離を用いた類似性指標で、リファレンス埋め込みとの距離を測っていました。新しい判定者は、スコアリングタスク自体にエンドツーエンドで最適化されています。この性能差は、その違いを反映しており、アーキテクチャの革新よりも重要です。

著者が付け加える一つの注意点は、ここで使われている地上真実も代理値であり、トークンレベルの単語重複に過ぎないということです。判定者はこの指標と良く相関しますが、単語の重複が人間が考える品質の応答を確実に反映しているかどうかは、未解決の問題です。

判定者に付随する2つの展開指向の特徴があります。カスケード型パイプラインは、軽量モデルを最初に通し、スコアが曖昧な場合のみ重いモデルにエスカレーションし、評価コストを最大72.7％削減します（最も積極的な閾値設定時）。ただし、その場合の相関は約0.51に低下します。オンラインキャリブレーション機構は、手動調整なしで動作し、意味的品質を最も重要な信号として一貫して識別し、重みを調整します。時間とともに、その重みは開始時の4.7倍に増加します。

システムが依然として苦戦している点

判定者はタスクタイプによって性能が不均一です。質問応答では相関が0.830に達しますが、要約では0.199に低下します。論文はこれを、判定者自体の失敗ではなく、訓練時に用いた評価指標に起因するとしています。生の単語重複は、要約品質の良い指標ではないため、訓練されたモデルは弱い信号を追いかける傾向を学習します。著者はこれを、未解決の主要な問題と位置付けています。

この枠組みは、論文が全体の結果を提示する方法とも一致しています—方法論的に、失敗例も改善点と同じくらい明確に述べられています。4つ目の論文となるこの研究は、製品発表というよりも、実際に展開しようとするギャップを段階的に埋めているチームの努力の記録のように読めます。

開示：このコンテンツは第三者によって提供されています。crypto.newsもこの記事の著者も、このページで言及されている製品を推奨しません。ユーザーは、企業に関する行動を起こす前に自己調査を行う必要があります。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
MyGateTradeStory
965.74K 人気度
#
USIranTalksPostponed
1.89M 人気度
#
IsraelStrikesIranBTCPlunges
59.83K 人気度
#
PredictWorldCup🇺🇸vs🇵🇾
835.14K 人気度
#
TradFiCFDGoldMaster
1.82M 人気度

ピン留め

サイトマップ

DGrid AIの最新の研究は、分散型AIスコアリングの核心的な欠陥に取り組んでいます

スコアリング問題の発展経緯

論文の提案内容

コアの結果

システムが依然として苦戦している点

人気の話題

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

ピン留め