今天这消息直接炸穿AI圈!@SentientAGI 拉着普林斯顿、UT Austin 一起搞了个叫 SPIN-Bench 的新活,我一开始以为又是“满篇公式的学术废话文学”,结果仔细一看——直接给我整懵圈了!



简单说,这玩意就是给AI开的“社会大学”,专门教它们玩“人情世故版游戏”:不是一个AI闷头解题,是一群AI凑一起“大乱斗”,又要合作又要博弈,还得会谈判——相当于让ChatGPT放下题库去打《三国杀》,不仅得记牌,还得猜队友是不是内奸、对手会不会骗它!

以前测AI多敷衍?一问一答跟考100米似的,冲完就完事儿。现在SPIN-Bench直接拉到“铁人三项PLUS”级别:得规划长远套路(比如怎么结盟)、适应猪队友、防对手背刺、还得扛住突发状况——这哪是考试,分明是让AI去混“江湖帮派”!

它名字里全是小心思:SPIN=Strategic Planning(会算后路)、Interaction(会唠嗑)、Negotiation(会讨价还价)——翻译成人话就是AI版《权力的游戏》生存指南!从拆长线任务(像规划怎么打通关),到跟人下棋对弈(纯纯互坑),再到玩合作卡牌(藏着掖着不敢说全),最后还得搞外交(今天跟你结盟,明天可能卖你),每一步都逼AI动真脑子,不是光堆算力就能混过去的!

而且这活特硬核:每个AI都得走“瞅局势→发消息→干正事”的流程,消息还限字数、时间就给10秒——跟你打游戏时想跟队友说“我去偷塔,你们稳住”,又怕对面看见的急死个人的场面一模一样,妥妥的“AI社交高考”!

更绝的是,每次测试都记全账(谁干啥、说啥、得啥奖励),想装聪明蒙混过关?门儿都没有!你是真懂社交,还是装懂的“AI老油条”,一查日志全露馅!

最关键的是,这玩意第一次能给AI的“社交智商”打分!以前测AI是“看它会不会做题”,现在是“看它会不会做人”——终于能搞明白,AI到底是真懂人情世故,还是只会念稿子的“机器嘴替”了!这才是给AI测“真聪明”的终极考卷啊!

@SentientAGI
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)