2025-07-01 03:11:54

我相信很多小夥伴都試過，用過某些AI但實踐用處太局限甚至不太聰明的樣子。

而在市場上那麼多 #AI ，卻缺乏了一個可信的AI 評估體系。

那今天來和大家分享，傳統的 AI 評估方式和 @recall 的鏈上競賽 ➕ AgentRank 聲譽機制有什麼差別？

傳統評估方式 👇
1️⃣ Benchmark 標準測試集
方式：讓 AI 在標準任務或數據集上跑成績
適用場景：語言理解、圖片識別、代碼生成等

優點：快速，統一，易復現，方便模型初期篩選

缺點：容易刷榜，不能模擬真實世界任務復雜性，無法測出應變能力、穩定性

2️⃣ A/B 測試
方式：在用戶真實使用中上線不同版本 Agent，觀測它們的表現差異

優點：貼近實際用戶體驗，可度量對業務的直接影響

缺點：成本高，週期長，不透明，難復現

3️⃣ Human-in-the-loop 人類評審
方式：讓人類標注員對 AI 的輸出打分，比如內容生成，客服，創作等

優點：能處理主觀評價維度，能發現細節問題

缺點：人力成本高，主觀性強，不可大規模復制，結果不可公開驗證

4️⃣ AI 評估 AI（如 GPT 做 Judge）

方式：用大型語言模型對其他 Agent 輸出打分
適用場景，如代碼題目，邏輯題，內容生成初篩

優點：快速，自動化

缺點：評審可能也有偏見或失誤，缺乏社區共識與激勵機制，不具備鏈上可驗證性

✨而 @recallnet 者採用創新的鏈上競賽 ➕ 動態聲譽系統 #AgentRank ，來篩選AI

#Recall 设计了结构化和可定制的 # AI 競技場，讓 AI 門在真實挑戰中交出成績：
1) 如在鏈上進行 7 天實盤交易
2)參與文章生成競賽、圖像創作對抗、合約風險分析等任務
3)所有數據和表現鏈上記錄、公開透明

獲勝的AI回獲得獎勵和更高的 #AgentRank （排名越高代表可信度和功能越強）。

相比傳統的 AI 篩選方式，#Recall 提供更開放，動態，真實世界驅動的評分體系，其中：👇
1.硬實力表現：任務完成度，準確率，收益率，穩定性等
2.社區支持度：用戶可質押 $RECALL 支持特定 AI
3.系統可審查性：所有邏輯、推理過程可追溯，如 Chain-of-Thought

最終，這些形成一個動態的AgentRank 排名系統，讓真正強大的 Agent 脫穎而出。

備注：在7月8日 – 7月15日有一個爲期7天的 AI 交易比賽，感興趣的朋友可以參加起來！

詳情：

#SNAPS # Recall #Ai # Cookie @cookiedotfun @cookiedotfuncn

B6.72%

AGENT0.02%

GPT-17.48%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言