今天這消息直接炸穿AI圈!@SentientAGI 拉着普林斯頓、UT Austin 一起搞了個叫 SPIN-Bench 的新活,我一開始以爲又是“滿篇公式的學術廢話文學”,結果仔細一看——直接給我整懵圈了!



簡單說,這玩意就是給AI開的“社會大學”,專門教它們玩“人情世故版遊戲”:不是一個AI悶頭解題,是一羣AI湊一起“大亂鬥”,又要合作又要博弈,還得會談判——相當於讓ChatGPT放下題庫去打《三國殺》,不僅得記牌,還得猜隊友是不是內奸、對手會不會騙它!

以前測AI多敷衍?一問一答跟考100米似的,衝完就完事兒。現在SPIN-Bench直接拉到“鐵人三項PLUS”級別:得規劃長遠套路(比如怎麼結盟)、適應豬隊友、防對手背刺、還得扛住突發狀況——這哪是考試,分明是讓AI去混“江湖幫派”!

它名字裏全是小心思:SPIN=Strategic Planning(會算後路)、Interaction(會嘮嗑)、Negotiation(會討價還價)——翻譯成人話就是AI版《權力的遊戲》生存指南!從拆長線任務(像規劃怎麼打通關),到跟人下棋對弈(純純互坑),再到玩合作卡牌(藏着掖着不敢說全),最後還得搞外交(今天跟你結盟,明天可能賣你),每一步都逼AI動真腦子,不是光堆算力就能混過去的!

而且這活特硬核:每個AI都得走“瞅局勢→發消息→幹正事”的流程,消息還限字數、時間就給10秒——跟你打遊戲時想跟隊友說“我去偷塔,你們穩住”,又怕對面看見的急死個人的場面一模一樣,妥妥的“AI社交高考”!

更絕的是,每次測試都記全帳(誰幹啥、說啥、得啥獎勵),想裝聰明蒙混過關?門兒都沒有!你是真懂社交,還是裝懂的“AI老油條”,一查日志全露餡!

最關鍵的是,這玩意第一次能給AI的“社交智商”打分!以前測AI是“看它會不會做題”,現在是“看它會不會做人”——終於能搞明白,AI到底是真懂人情世故,還是只會念稿子的“機器嘴替”了!這才是給AI測“真聰明”的終極考卷啊!

@SentientAGI
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)