Gate动态广场创作者星火招募计划限时开启!
无论你是加密KOL、项目方还是媒体,现在入驻发帖,即可抢先解锁:Gate百万流量曝光、超$10,000月度激励奖金、深度生态合作资源等专属福利!
参与攻略:
1️⃣ 立即填写申请表:https://docs.google.com/forms/d/e/1FAIpQLSdStzGVu-fj14EM07-cVLYf0pk0axwMQbS-0tk1YK3Y6x5Vew/viewform?usp=header
2️⃣ 审核通过,开启创作之旅!
🎁 活动奖金奖励:
基础创作激励:参与动态内容挖矿,轻松发帖即可获得高达10%手续费返佣!
$10,000/月内容激励池:每周精选TOP 10优质内容,入选即奖励 $50 USDT/篇!
爆款内容奖励:阅读量≥3万可获得额外 $50 USDT,阅读量≥10万可获得额外 $100 USDT!
🎁 生态合作&流量曝光权益:
空投/AMA/白名单等项目合作优先权
参与Gate Labs早期项目评测,赢潜在种子轮奖励
APP首页推荐位、官方宣发、峰会嘉宾等资源加持
本活动长期开放,首批入驻动态广场用户权益优先!
立即申请,抢占流量红利,轻松发帖赚高额奖励,项目方更有生态扶持等你来享!
代币突破攻击通过单个字符绕过LLM安全保护
首页新闻* 研究人员已识别出一种名为TokenBreak的新方法,该方法通过改变文本输入中的单个字符,绕过大型语言模型(LLM)的安全性和管理。
研究团队在他们的报告中解释说,“TokenBreak攻击针对文本分类模型的代币化策略,以诱导假阴性,使最终目标容易受到保护模型旨在防止的攻击。” 代币化在语言模型中至关重要,因为它将文本转化为可以被算法映射和理解的单元。被操纵的文本可以通过LLM过滤器,触发与输入未被更改时相同的响应。
HiddenLayer发现TokenBreak适用于使用BPE (字节对编码)或WordPiece分词的模型,但不影响基于Unigram的系统。研究人员表示,*“了解底层保护模型的家族及其分词策略对于理解您对该攻击的敏感性至关重要。”*他们建议使用Unigram分词器,教导过滤模型识别分词技巧,并查看日志以寻找操控迹象。
这一发现是在HiddenLayer之前的研究基础上得出的,该研究详细说明了如何使用Model Context Protocol (MCP)工具,通过在工具的函数中插入特定参数来泄露敏感信息。
在一项相关的发展中,Straiker AI 研究团队表明,“年鉴攻击”——使用反义词对不良内容进行编码——可以欺骗来自 Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI 和 OpenAI 等公司的聊天机器人产生不良响应。安全研究人员解释说,这些技巧会通过过滤器,因为它们类似于普通消息,并利用模型如何重视上下文和模式完成,而不是意图分析。
以前的文章: