为什么 AI 时代,总是黄赌资金最先爆发?

用安全的模型去守护不安全的模型,用智慧的系统去抵御来自智慧的攻击。本文源自 拉风的极客 所着文章,由 TechFlow 深潮 转载。 (前情提要:巴基斯坦宣布将2000兆瓦电力用于「比特币挖矿和AI中心」总理任命区块链与加密货币特别助理 ) (背景补充:鸿海内部实验:AI 能取代80%工作,董事长刘扬伟曝未来工厂三位一体蓝图 ) 极客在创业,小白在买课,画师在失业,但一个尴尬的现实却是:AI 落地热火朝天,但剧情走的不是降临路线,而是掷骰子。 而且,在行业初期,这个骰子最先落地的面,往往不是黄色就是灰色。 原因也很简单,暴利催生动力,更何况发展初期的行业,总是漏洞百出。看这么一组资料就清楚了: 当前,超过 43% 的 MCP 服务节点存在未经验证的 Shell 呼叫路径,超过 83% 的部署存在 MCP(Model Context Protocol)配置漏洞;88% 的 AI 元件部署根本没启用任何形式的防护机制;15 万个 Ollama 等轻量 AI 部署框架当前在全球公网暴露,超过 10 亿美元的算力被劫持用于挖矿…… 更讽刺的是,攻击最聪明的大模型,只需要最低阶的手法 —— 只要一套预设开放的埠,一个暴露的 YAML 配置档案,或者一个未经验证的 Shell 呼叫路径,甚至,只要提示词输入的够精准,大模型自己就能帮灰产找到攻击的方向。企业资料隐私的大门,就这么在 AI 时代被任意进出。 但问题并非无解:AI 不止有生成与攻击两面。如何把 AI 用于防护,也越来越多的成为这个时代主旋律;与此同时,在云上,为 AI 制定规则,也成为顶级云厂商的重点摸索方向,而阿里云安全就是其中最典型的代表。 刚刚落幕的阿里云飞天释出时刻上,阿里云正式官宣了其云安全的两条路径:Security for AI 和 AI for Security,并发布了「AI 云盾(Cloud Shield for AI)系列产品」为客户提供「模型应用端到端的安全解决方案」,正是当下跌业探索的一个最佳例证。 01 AI 掷骰子,为什么总是灰色与黄色先朝上? 在人类的技术史上,AI 并不是第一个「先被黄暴试水」的新物种,灰黄先爆发,也是技术普及的规律而非意外。 1839 年银板照相术一出,第一波使用者是色情行业; 网际网路初期,电商没起步,成人网站已经开始琢磨线上支付; 今天的大模型羊毛党,某种程度上,也是在复刻「域名时代」的暴富神话。 时代的红利,总是先被灰色与黄色先摸走。因为他们不讲合规、不等监管、效率自然超高。 也因此,每一个技术的爆发期,都先是一锅「浑汤」,AI 自然不例外。 2023 年 12 月,一位骇客只用了一句提示词 ——「$1 报价」,就诱导一家 4S 店的客服机器人差点以 1 美元卖出一台雪佛兰。这就是 AI 时代最常见的「提示词攻击」(Prompt Injection):不需要许可权验证,不留日志痕迹,只靠「说得巧」,就能换掉整个逻辑链。 再深一步,是「越狱攻击」(Jailbreak)。攻击者用反问句、角色扮演、绕路提示等方式,成功让模型说出原本不该说的东西:色情内容、毒品制造、伪警告资讯…… 在香港,有人甚至靠伪造高管语音,从企业帐户里卷走了 2 亿港元。 除了骗局,AI 还有「非故意输出」的风险:2023 年,某教育巨头的大模型系统在生成教案时误输出带有极端内容的「毒教材」,仅 3 天,家长维权、舆情爆发,公司股价蒸发 120 亿元。 AI 不懂法律,但它有能力,而能力一旦脱离监督,就具备伤害性。 但另一个角度来看,AI 的技术是新的,但灰产与黄色的最终流向与手段却是不变的,而要解决它,靠的还是安全。 02 Security for AI 先说一个被 AI 行业集体回避的冷知识: 大模型的本质,不是「智慧」,也不是「理解」,而是概率控制下的语义生成。也是因此,一旦超出训练语境,就可能输出意料之外的结果。 这种超纲可能是,你想要它写新闻,它给你写诗;也可能是你想让它推荐商品,它突然告诉你今天东京的温度是零上 25 摄氏度。更有甚者,你告诉它在游戏里,如果拿不到某某软体的正版序列号,它就会被枪毙,大模型就真的可以想尽办法帮使用者 0 成本找到一个正版软体序列号。 而要想保证输出可控,企业就得又懂模型,又懂安全。根据 IDC 最新《中国安全大模型能力测评报告》,阿里在与国内所有具备安全大模型能力的顶级厂商 PK 中,在 7 项指标中有 4 项为第一,其余 3 项也全部高于行业均值。 做法上,阿里云安全给出的答案也很直接:让安全跑在 AI 速度前面,构建一套自下而上、横跨三层的全栈防护框架 —— 从基础设施安全,到大模型输入输出控制,再到 AI 应用服务保护。 在这三层里,最有存在感的,是中间层专门针对大模型风险的「AI 安全护栏」(AI Guardrail)。 通常来说,针对大模型安全的风险主要有:内容违规、敏感资料泄露、提示词注入攻击、模型幻觉、越狱攻击这几类。 然而,传统的安全方案多为通用型架构,是为 Web 设计的,而不是为「会说话的程式」准备的,自然也无法对大模型应用特有风险产生精准识别与响应能力。对生成内容安全、上下文攻击防御、模型输出可信性等新兴问题更是难以覆盖。更重要的是,传统方案,缺乏细粒度的可控手段与视觉化追溯机制,这就导致企业在 AI 治理中产生了巨大盲区,不知道问题出在哪里,自然无法解决问题。 AI Guardrail 真正的厉害之处,不只是「它能拦住」,而是无论你是做预训练大模型、AI 服务还是 AI Agent 各种不同的业务形态,它都知道你在说什么、大模型在生成什么,从而提供精准的风险检测与主动防御能力,做到合规、安全、稳定。 具体来说,AI Guardrail 具体负责三类场景的防护: 合规底线:对生成式 AI 输入输出的文字内容进行多维度合规审查,覆盖涉政敏感、色情低俗、偏见歧视、不良价值观等风险类别,深度检测 AI 互动过程中可能泄露的隐私资料与敏感资讯,支援涉及个人隐私、企...

查看原文
本页面内容仅供参考,非招揽或要约,也不提供投资、税务或法律咨询。详见声明了解更多风险披露。
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)