✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
无聊AI的理由
AI 基准竞赛有了赢家。只是这个赢家不是你。
每隔几个月,就会有一个新模型上线,新的排行榜也会重新洗牌。实验室们在一系列旨在衡量机器智能的测试中互相较量:比谁想得更透彻、比谁写得更好、比谁答得更准确。报道会跟上。资金也会跟上。
更少人关注的是:这一切是否必然。基准测试、军备竞赛、把 AI 叙事成“救世”或“灾难”——这些都是选择,而不是物理定律。它们反映的是行业决定要把什么作为优化目标,以及决定要给什么提供资金。那些需要几十年才能在日常、实用的方式上见效的技术,本季度不会掀起数十亿美元的融资。极端叙事才会。
一些研究者认为目标本身就错了。不是说 AI 不重要,而是“重要”不必意味着“史无前例”。印刷机改变了世界。电力也改变了世界。两者都是逐步改变世界的——通过混乱的采用过程,让社会有时间做出回应。若 AI 也遵循这种模式,那么正确的问题就不该是超级智能。它们应当是:谁会受益,谁会受到伤害,我们正在构建的工具是否真的适用于使用它的人。
很多研究者都从截然不同的角度在问这些问题。下面是其中三位。
实用,而非通用
Ruchir Puri 自 IBM $IBM 开始做 AI,早在大多数人听说机器学习之前。他看着 Watson 在 2011 年击败了世界最优秀的 Jeopardy(智力竞赛)选手。自那之后,他见证了数轮炒作浪潮高涨又退潮。当当前这一波来临时,他给它做了一个简单的测试:它有没有用?
不惊艳。也不通用。只是实用。
“我不太在意人工通用智能(AGI),”他说。“我在意的是它有用的那部分。”
这种说法让他与行业大多数的自我形象产生冲突。那些奔向 AGI 的实验室在追求“更广”。他们构建的系统能做任何事、回答任何问题、推理任何问题。Puri 认为这不是正确的目标,而且他还有一个基准——他希望看到行业真的尝试去达成它。
人类大脑的体积是 1,200 立方厘米,消耗 20 瓦特——相当于一个电灯泡的能量——而且正如 Puri 指出的那样,它靠三明治运转。单张 Nvidia $NVDA GPU 消耗 1,200 瓦特,是整个大脑的 60 倍;要做出任何有意义的事情,你需要成千上万张它们,放在一个巨大的数据中心里。如果以大脑为基准,行业并不接近高效。它正在走向错误的方向。
他的替代方案是他所说的混合架构:小模型、中模型和大模型共同协作,并分别承担各自处理得最好的任务。一个大型前沿模型负责复杂推理和规划。更小、为特定目的打造的模型负责执行。像起草一封邮件这样简单的任务,不需要一个在互联网上一半内容上训练出来的系统。它需要的是快速、便宜且专注。Puri 指出:大约每九个月,小一代模型就会在能力上大致等同于上一代被认为是“大型”的水平。智能正在变得更便宜。问题在于,是否有人在为这种现实构建。
这种做法有现实世界的支撑。Airbnb $ABNB 使用较小的模型来更快地解决一大部分客户服务问题,速度甚至快于其人类代表。Meta $META 并不使用其最大模型来投放广告,而是把这些知识蒸馏进更小、且只为该任务构建的模型中。研究者们已经开始把这种模式称为“知识装配流水线”:数据流入,专门的模型处理离散步骤,最后有用的东西从另一端产出。
IBM 一直在比大多数公司更久地打造这种装配流水线。由多家公司模型组合而成的混合智能体(hybrid agent),在一支庞大的工程师团队中显示出 45% 的生产力提升。使用更小、为特定目的打造的模型运行的系统,正帮助那些负责处理全球 84% 金融交易的工程师,在恰当的时间获取恰当的信息。这些并不是什么炫酷的应用。它们也没有失效。
它们没有任何一个需要系统能写诗或解答你孩子的数学作业。它们需要的是更狭窄、因此也更值得信赖的能力。一个只为把某件事做好而训练的模型,会知道当问题超出其适用范围时该怎么办。它会明确告诉你。对“不知道的事情也能校准不确定性”,这种能力——是大型前沿模型仍在努力解决的难题。
“我想为这些流程构建智能体和系统,”Puri 说。“不是让它去回答两百万个问题的东西。”
工具,而不是智能体
Ben Shneiderman 有一个简单测试,用来判断一个 AI 系统是否设计得好:使用它的人是否感觉自己做了些什么,还是感觉有点像“由某种东西替你做了”?
这种差别比听起来更重要。Shneiderman 是马里兰大学的计算机科学家,他帮助奠定了现代界面设计的基础。他花了几十年时间论证:技术的目标应该是放大人的能力,而不是替代它。好工具会构建他所说的“用户自我效能”(user self-efficacy),即那种来自于知道“我能自己做点什么”的信心。坏工具会悄悄把这种能动性转移到别处。
他认为大多数 AI 行业都在构建糟糕的工具,而且他觉得“智能体化”(agentic turn)让情况更糟。AI 智能体的宣传点是:它们会代表你行动,端到端处理任务,而你无需参与。对 Shneiderman 来说,这不是一个功能点。这是问题。当出了错——而且一定会出错——谁来负责?当一切顺利——到底是谁学到了任何东西?
他长期在对抗的那个陷阱有个名字。拟人化(Anthropomorphism)——让技术看起来像人的冲动——一直在赢,也一直在失败。上世纪 1970 年代,银行曾尝试用自动取款机(ATM):它们会对顾客说“How can I help you?”(我能怎么帮你?),并给自己起名,比如 Tilly the Teller(出纳蒂莉)和 Harvey the World Banker(世界银行家哈维)。后来它们被另一类机器取代:机器只给你三个选项。余额、现金、存款。使用率飙升。花旗银行的使用率比竞争对手高出 50%。人们不想要一种合成的关系。他们想要的是拿回自己的钱。
类似的模式在几十年间不断重演:从 Microsoft $MSFT Bob,到 Humane 的 AI 别针,再到一波波类人机器人。每一次,拟人化版本都会失败,然后被更像工具的东西替换。Shneiderman 把它称为“僵尸想法”(zombie idea)。它不会死,只会一次次卷土重来。
如今的不同在于规模和复杂度。他承认,现在这一代 AI 的确令人印象深刻,甚至是“惊人”的印象深刻。但“令人印象深刻”和“有用”并不是一回事;那些被设计得像人——说“我”(I)——并模拟关系的系统,在优化的却是错误的品质。他希望设计者要问的问题更简单:这会让人获得更多力量,还是更少?
“AI 里没有‘我’,”他说。“至少不该有。”
人,而不是基准
Karen Panetta 对为什么 AI 开发会变成现在这样,有个简单答案:看资金流向。
Panetta 是塔夫茨大学(Tufts University)电气与计算机工程教授,同时也是 IEEE 院士。她研究 AI 伦理,并且清楚知道这项技术应该走向哪里。让阿尔茨海默症患者获得辅助宠物、为有不同认知风格的儿童提供自适应学习工具、为在原地养老(aging in place)的老年人提供智能家居监测。她说,能够把这些做好的技术在很大程度上已经存在了。缺的是投资。
“人类不在乎基准,”她说。“他们在乎的是:当我买了它,它能不能用?它真的会让我的生活更轻松吗?”
问题在于:那些最能从设计良好的辅助型 AI 中受益的人群,同时也是最没有说服力的“卖点”——对风险投资家来说。能够改变制造流程、减少工作场所伤害、并为一家公司的员工降低医疗成本的系统,有着显而易见的回报。一个机器人伴侣,能让阿尔茨海默症患者保持冷静并保持连接,需要完全不同的数学。于是资金就流向资金流向的地方,而那些最有可能获益的人群继续等待。
Panetta 说,发生了变化的是:昂贵的工程难题终于开始以规模化方式被解决。传感器更便宜了。电池更轻了。无线协议变得无处不在。为工厂车间打造工业机器人的同一笔投资,悄悄地让消费级机器人在某种程度上变得可行——而这在五年前并不成立。从仓库到客厅的路,比看起来更短。
但她有个担忧:围绕这次转变的兴奋往往会跳过关键部分。物理机器人有天然的限制条件。你知道力的上限。你知道运动学。你可以预先设想、模拟,并围绕它们可能如何失败去设计。生成式 AI 没有这些保证。它是非确定性的。它会“胡说八道”(hallucinates)。没人能完全弄清楚,当你把它放进一个在家中真实存在的人——比如患有痴呆症的患者的家庭,或一个无法判断什么时候出了问题的孩子——会发生什么。
她见过当传感器变脏导致机器人失去空间感知时会发生什么。她思考过:如何构建这样的东西——它会学习一个人生活中的亲密细节:他们的日常、他们的认知状态、他们困惑的时刻;然后再基于这些信息自主行动。她说,那些“故障保护措施”(fail-safes)没有跟上。
“我不担心机器人,”她说。“我担心的是 AI。”
📬 订阅每日简报
我们提供免费的、快速又有趣的全球经济简报,每周一到周五早上发送。
注册我