広場
最新
注目
ニュース
プロフィール
ポスト
BlockchainDiary
2025-07-01 03:11:54
フォロー
私は多くの仲間が、あるAIを試したことがあると思いますが、実際の用途はあまりにも限られていて、さらにはあまりサトシではないように見えます。
しかし、市場にはこれほど多くの #AI が存在するのに、信頼できるAI評価システムが欠けています。
今日は皆さんに、従来のAI評価方法と@recallのオンチェーン競技➕AgentRankの評判メカニズムにはどんな違いがあるのかを共有したいと思います。
従来の評価方法 👇
1️⃣ ベンチマーク 標準テストセット
方式:AIが標準タスクやデータセットで成果を出すようにする
適用可能なシナリオ: 言語理解、画像認識、コード生成など
利点:速い、統一された、再現が容易、モデル初期の選定が便利
欠点:ランキング操作が容易で、実世界のタスクの複雑さを模倣できず、柔軟性や安定性を測ることができない
2️⃣ A/B テスト
方式: ユーザーの実際の使用において異なるバージョンのエージェントを上线し、それらのパフォーマンスの違いを観測します。
利点:実際のユーザー体験に近く、ビジネスへの直接的な影響を測定可能
欠点:コストが高い、期間が長い、不透明、再現が難しい
3️⃣ ヒューマン・イン・ザ・ループ 人間によるレビュー
方式: AI の出力に対して人間のアノテーターがスコアを付ける、例えばコンテンツ生成、カスタマーサービス、創作など
利点:主観的な評価次元に対処し、詳細な問題を見つけることができる
欠点:人手コストが高く、主観性が強く、大規模に複製できず、結果を公開検証できない
4️⃣ AI 評価 AI(GPTのようにジャッジする)
方式: 大型言語モデルを使用して他のエージェントの出力にスコアを付ける
適用シーン、コードの問題、論理問題、コンテンツ生成の初期選別
長所: 高速、自動化
欠点:審査には偏見や誤りがある可能性があり、コミュニティの合意やインセンティブメカニズムが欠けており、オンチェーンで検証可能ではない
✨そして @recallnet は革新的なオンチェーンコンペティション ➕ ダイナミックレピュテーションシステム #AgentRank を採用してAIを選別します
#Recall 设计了结构化和可定制的 #
AI アリーナ、リアルな挑戦の中で AI の門が成績を出すことを許可します:
1) では、ブロックチェーン上で 7 日間の実際の取引を行います。
2)の文章生成コンペ、画像制作対抗、契約リスク分析などのタスクに参加する
3)のすべてのデータとパフォーマンス チェーン上の記録、公開された透明性
勝利したAIは報酬とより高い #AgentRank を獲得します(ランキングが高いほど信頼性と機能が強くなります)。
従来の AI 選別方式と比較して、#Recall はよりオープンでダイナミック、現実世界に基づいた評価システムを提供します。この中には:👇
1.ハードスキルの表現:タスクの完了度、正確性、収益率、安定性など
2.コミュニティのサポート度:ユーザーは特定のAIをサポートするために $RECALL をステーキングできます
3. システムの可監査性:すべての論理、推論プロセスは追跡可能であり、Chain-of-Thoughtのように
最終、これらは動的なAgentRankランキングシステムを形成し、本当に強力なエージェントが際立つようにします。
備考:7月8日から7月15日まで、7日間のAI取引コンペティションがあります。興味のある方は参加してください!
ディテール:
#SNAPS #
Recall
#Ai #
Cookie @cookiedotfun @cookiedotfuncn
B
1.57%
AGENT
9.28%
GPT
4.19%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
共有
コメント
0/400
コメント
コメントなし
トピック
1
/3
1
Alpha Points System Opens
23k 人気度
2
Crypto Market Rebound
151k 人気度
3
SEC Crypto Project
6k 人気度
4
CandyDrop Airdrop Event 6.0
95k 人気度
5
White House Crypto Report
83k 人気度
ピン
サイトマップ
私は多くの仲間が、あるAIを試したことがあると思いますが、実際の用途はあまりにも限られていて、さらにはあまりサトシではないように見えます。
しかし、市場にはこれほど多くの #AI が存在するのに、信頼できるAI評価システムが欠けています。
今日は皆さんに、従来のAI評価方法と@recallのオンチェーン競技➕AgentRankの評判メカニズムにはどんな違いがあるのかを共有したいと思います。
従来の評価方法 👇
1️⃣ ベンチマーク 標準テストセット
方式:AIが標準タスクやデータセットで成果を出すようにする
適用可能なシナリオ: 言語理解、画像認識、コード生成など
利点:速い、統一された、再現が容易、モデル初期の選定が便利
欠点:ランキング操作が容易で、実世界のタスクの複雑さを模倣できず、柔軟性や安定性を測ることができない
2️⃣ A/B テスト
方式: ユーザーの実際の使用において異なるバージョンのエージェントを上线し、それらのパフォーマンスの違いを観測します。
利点:実際のユーザー体験に近く、ビジネスへの直接的な影響を測定可能
欠点:コストが高い、期間が長い、不透明、再現が難しい
3️⃣ ヒューマン・イン・ザ・ループ 人間によるレビュー
方式: AI の出力に対して人間のアノテーターがスコアを付ける、例えばコンテンツ生成、カスタマーサービス、創作など
利点:主観的な評価次元に対処し、詳細な問題を見つけることができる
欠点:人手コストが高く、主観性が強く、大規模に複製できず、結果を公開検証できない
4️⃣ AI 評価 AI(GPTのようにジャッジする)
方式: 大型言語モデルを使用して他のエージェントの出力にスコアを付ける
適用シーン、コードの問題、論理問題、コンテンツ生成の初期選別
長所: 高速、自動化
欠点:審査には偏見や誤りがある可能性があり、コミュニティの合意やインセンティブメカニズムが欠けており、オンチェーンで検証可能ではない
✨そして @recallnet は革新的なオンチェーンコンペティション ➕ ダイナミックレピュテーションシステム #AgentRank を採用してAIを選別します
#Recall 设计了结构化和可定制的 # AI アリーナ、リアルな挑戦の中で AI の門が成績を出すことを許可します:
1) では、ブロックチェーン上で 7 日間の実際の取引を行います。
2)の文章生成コンペ、画像制作対抗、契約リスク分析などのタスクに参加する
3)のすべてのデータとパフォーマンス チェーン上の記録、公開された透明性
勝利したAIは報酬とより高い #AgentRank を獲得します(ランキングが高いほど信頼性と機能が強くなります)。
従来の AI 選別方式と比較して、#Recall はよりオープンでダイナミック、現実世界に基づいた評価システムを提供します。この中には:👇
1.ハードスキルの表現:タスクの完了度、正確性、収益率、安定性など
2.コミュニティのサポート度:ユーザーは特定のAIをサポートするために $RECALL をステーキングできます
3. システムの可監査性:すべての論理、推論プロセスは追跡可能であり、Chain-of-Thoughtのように
最終、これらは動的なAgentRankランキングシステムを形成し、本当に強力なエージェントが際立つようにします。
備考:7月8日から7月15日まで、7日間のAI取引コンペティションがあります。興味のある方は参加してください!
ディテール:
#SNAPS # Recall #Ai # Cookie @cookiedotfun @cookiedotfuncn