保密式 AI 基准(ARC-AGI-X):对加密市场影响不大

robot
摘要生成中

头条

沃顿商学院学者 Ethan Mollick 提出"保密式"ARC-AGI-X 基准,希望更公平地评估 AI 模型

摘要

Ethan Mollick(沃顿副教授、《Co-Intelligence》作者、2024 TIME100 AI 入选者)在社交媒体上提出"ARC-AGI-X"基准的想法:让可信第三方托管测试,题目和题型都不公开,排行榜公开但测试内容保密,防止模型专门针对测试题训练。他的核心想法是,通过改进评估方法,真正衡量通用智能的进展,而不是继续奖励堆规模和"背答案"的做法。

分析

现有 ARC-AGI 基准由 François Chollet 在 2019 年提出,用新颖的网格谜题测试"流体智力"。人类准确率超过 85%,而 AI 系统(即使到 2026 年的 ARC-AGI-3)仍然低于 50%。差距的原因:

  • 公开题库导致过拟合,模型"刷题"而非学习
  • 依赖低效的穷举搜索,而非高效推理

Mollick 的思路是用"保密题库 + 外部专家验证"来防止"教到考点",迫使模型在推理和泛化上真正进步。这针对的是一个老问题:公开题库让模型"看起来更强",但未必有真正可迁移的能力。

2025 年 ARC Prize 的结果也说明了这一点:

  • 通过强化推理循环和测试时自适应,分数有所提升
  • 但效率仍远不如人类
  • 因此,基准应该更看重"学习效率和泛化",而非"记忆和微调收益"

可能的影响:

  • 实验设计:可能促使 OpenAI、Anthropic 等实验室调整评测方式,减少单纯"刷榜"的做法
  • 竞赛和开源:如果保密机制获得认可,可能提升开源生态的比较有效性,减少误导性的 AGI 里程碑炒作
  • 行业沟通:Mollick 持续在学术和产业间搭桥,推动"实际可用的评测框架"进入主流讨论

关键信息:

  • 核心判断:现有公开基准的过拟合和"刷分"问题,严重扭曲了对模型真实推理能力的评估;保密式评测可能有所帮助
  • 市场关联:对加密资产定价和交易情绪的近期影响弱,讨论停留在 AI 评测方法层面
  • 观察点:如果后续加密 AI 板块开始采用"保密式基准/排行榜"的说法,可能引发短期关注

影响评估

  • 重要性:高(对 AI 评测方法和行业话语权有影响)
  • 类别:技术洞察、AI 研究、产业趋势

结论: 对加密交易者和短期资金来说,这个话题目前不相关;真正的受益者是专注 AI 评测和模型能力验证的研究者。如果你是加密市场的主动交易者,现在不需要行动;长期配置者可以被动跟踪,等"AI 评测机制影响到加密 AI 赛道"的信号出现再说。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 热门 Gate Fun

    查看更多
  • 市值:$0.1持有人数:2
    0.00%
  • 市值:$0.1持有人数:1
    0.00%
  • 市值:$2258.62持有人数:1
    0.00%
  • 市值:$2262.06持有人数:1
    0.00%
  • 市值:$2262.06持有人数:1
    0.00%