保密式 AI 基准（ARC-AGI-X）：对加密市场影响不大

2026-03-28 16:30:01

摘要生成中

头条

沃顿商学院学者 Ethan Mollick 提出"保密式"ARC-AGI-X 基准，希望更公平地评估 AI 模型

摘要

Ethan Mollick（沃顿副教授、《Co-Intelligence》作者、2024 TIME100 AI 入选者）在社交媒体上提出"ARC-AGI-X"基准的想法：让可信第三方托管测试，题目和题型都不公开，排行榜公开但测试内容保密，防止模型专门针对测试题训练。他的核心想法是，通过改进评估方法，真正衡量通用智能的进展，而不是继续奖励堆规模和"背答案"的做法。

分析

现有 ARC-AGI 基准由 François Chollet 在 2019 年提出，用新颖的网格谜题测试"流体智力"。人类准确率超过 85%，而 AI 系统（即使到 2026 年的 ARC-AGI-3）仍然低于 50%。差距的原因：

公开题库导致过拟合，模型"刷题"而非学习
依赖低效的穷举搜索，而非高效推理

Mollick 的思路是用"保密题库 + 外部专家验证"来防止"教到考点"，迫使模型在推理和泛化上真正进步。这针对的是一个老问题：公开题库让模型"看起来更强"，但未必有真正可迁移的能力。

2025 年 ARC Prize 的结果也说明了这一点：

通过强化推理循环和测试时自适应，分数有所提升
但效率仍远不如人类
因此，基准应该更看重"学习效率和泛化"，而非"记忆和微调收益"

可能的影响：

实验设计：可能促使 OpenAI、Anthropic 等实验室调整评测方式，减少单纯"刷榜"的做法
竞赛和开源：如果保密机制获得认可，可能提升开源生态的比较有效性，减少误导性的 AGI 里程碑炒作
行业沟通：Mollick 持续在学术和产业间搭桥，推动"实际可用的评测框架"进入主流讨论

关键信息：

核心判断：现有公开基准的过拟合和"刷分"问题，严重扭曲了对模型真实推理能力的评估；保密式评测可能有所帮助
市场关联：对加密资产定价和交易情绪的近期影响弱，讨论停留在 AI 评测方法层面
观察点：如果后续加密 AI 板块开始采用"保密式基准/排行榜"的说法，可能引发短期关注

影响评估

重要性：高（对 AI 评测方法和行业话语权有影响）
类别：技术洞察、AI 研究、产业趋势

结论： 对加密交易者和短期资金来说，这个话题目前不相关；真正的受益者是专注 AI 评测和模型能力验证的研究者。如果你是加密市场的主动交易者，现在不需要行动；长期配置者可以被动跟踪，等"AI 评测机制影响到加密 AI 赛道"的信号出现再说。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
成长值抽奖赢金条
105.17万热度
#
震荡行情交易策略
3.86万热度
#
比特币震荡走弱
10108.78万热度
#
美联储加息预期再起
86.51万热度
#
特朗普称打击暂缓期延长10天
709.38万热度

热门 Gate Fun
查看更多

1
BROSS
BROSS
市值:$2255.17持有人数:1
0.00%
2
ygb
toket
市值:$2258.62持有人数:1
0.00%
3
Cartoon
Cartooncoin
市值:$2292.29持有人数:2
0.14%
4
紫薇币
ZW
市值:$2258.62持有人数:1
0.00%
5
get
get
市值:$2271.8持有人数:2
0.00%

保密式 AI 基准（ARC-AGI-X）：对加密市场影响不大

头条

摘要

分析

影响评估

热门话题

成长值抽奖赢金条

震荡行情交易策略

比特币震荡走弱

美联储加息预期再起

特朗普称打击暂缓期延长10天

热门 Gate Fun

BROSS

BROSS

ygb

toket

Cartoon

Cartooncoin

紫薇币

ZW

get

get

置顶